在实践中，我们的多智能体失败几乎从来不是模型的问题——而是交接环节的问题。MAST数据是否符合您的观察？

Reddit r/AI_Agents 2026/07/02 08:41 论文

multi-agent failures orchestration coordination verification llm-systems

摘要

对多智能体LLM流水线失败的分析，引用伯克利MAST论文，该论文将大多数失败归因于协调问题（规范、智能体间不一致）而非模型能力，并建议使用专用验证智能体作为解决方案。

我一直在构建和调试多智能体流水线（编排+工具使用），并不断遇到同一个障碍：一次运行失败后，有人更换模型或增加上下文窗口，它通过了一次，然后在其他地方失败。我们一直把协调问题当作能力问题来处理。伯克利MAST论文（《为什么多智能体LLM系统会失败？》，arXiv:2503.13657）与此一致。他们手动注释了7个框架中的1600多个执行轨迹（6名注释者，Cohen's Kappa系数0.88），并将失败分为3类：- 规范与设计：41.8%（糟糕的分解、角色模糊、无终止条件）- 智能体间不一致：36.9%（交接时上下文丢失、输出冲突、格式不匹配）- 验证：21.3%（过早的“完成”、不完整或错误的检查）评估方面更棘手：各种2026年的审计报告显示，LLM裁判超过一半的时间是错误的，存在位置偏差（偏向第一个答案）和长度偏差。而且pass^k方差非常严重——同一智能体在4次运行中，pass^4的得分可能比pass^1低15-25分。所以一次绿色运行说明不了什么。我的看法：大多数“增加另一个智能体”的修复方案会让情况更糟，因为它们增加了更多的接缝，而不是减少。我发现最被低估的修复方案是使用一个专用验证智能体，它具有独立的上下文和评分标准，生产智能体从未见过——基本上将验证视为一个独立阶段，就像安全流水线中的独立扫描器。

查看原文

在实践中，我们的多智能体失败几乎从来不是模型的问题——而是交接环节的问题。MAST数据是否符合您的观察？

相似文章

结合语言模型何时有益？——路由、投票与多智能体混合在67个前沿模型中的共失败上限

AI代理的失败方式鲜有人论及。以下是我亲眼所见。

当规划正确执行却失败时：论基于LLM的多智能体系统的认知校准

你的代理失败不是因为模型，而是因为没人构建一个停止按钮

LLM代理的一致性如何？在多步骤工具调用流程中测量行为可重现性

提交意见反馈