在实践中,我们的多智能体失败几乎从来不是模型的问题——而是交接环节的问题。MAST数据是否符合您的观察?
摘要
对多智能体LLM流水线失败的分析,引用伯克利MAST论文,该论文将大多数失败归因于协调问题(规范、智能体间不一致)而非模型能力,并建议使用专用验证智能体作为解决方案。
我一直在构建和调试多智能体流水线(编排+工具使用),并不断遇到同一个障碍:一次运行失败后,有人更换模型或增加上下文窗口,它通过了一次,然后在其他地方失败。我们一直把协调问题当作能力问题来处理。伯克利MAST论文(《为什么多智能体LLM系统会失败?》,arXiv:2503.13657)与此一致。他们手动注释了7个框架中的1600多个执行轨迹(6名注释者,Cohen's Kappa系数0.88),并将失败分为3类:- 规范与设计:41.8%(糟糕的分解、角色模糊、无终止条件)- 智能体间不一致:36.9%(交接时上下文丢失、输出冲突、格式不匹配)- 验证:21.3%(过早的“完成”、不完整或错误的检查)评估方面更棘手:各种2026年的审计报告显示,LLM裁判超过一半的时间是错误的,存在位置偏差(偏向第一个答案)和长度偏差。而且pass^k方差非常严重——同一智能体在4次运行中,pass^4的得分可能比pass^1低15-25分。所以一次绿色运行说明不了什么。我的看法:大多数“增加另一个智能体”的修复方案会让情况更糟,因为它们增加了更多的接缝,而不是减少。我发现最被低估的修复方案是使用一个专用验证智能体,它具有独立的上下文和评分标准,生产智能体从未见过——基本上将验证视为一个独立阶段,就像安全流水线中的独立扫描器。
相似文章
结合语言模型何时有益?——路由、投票与多智能体混合在67个前沿模型中的共失败上限
本文揭示了多模型LLM系统的一个基本约束:准确率受制于所有模型在同一查询上同时出错的比率。在67个前沿模型中,常见指标显著低估了全错率,从而限制了投票、路由和集成策略的收益。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
当规划正确执行却失败时:论基于LLM的多智能体系统的认知校准
本文识别了基于LLM的多智能体系统中的一种失败模式,即由于智能体错误判断自身知识(认知校准不当)而导致规划失败,并提出EPC-AW工作流,通过信息一致性和认知状态细化将系统级成功率提升9.75%。
你的代理失败不是因为模型,而是因为没人构建一个停止按钮
文章认为,AI代理在生产中的主要失败点并非模型本身,而是缺乏基础设施,如停止按钮、账单监控以及工具调用的可追溯性。
LLM代理的一致性如何?在多步骤工具调用流程中测量行为可重现性
本文系统性地测量了LLM代理在多步骤工具调用流程中的行为可重现性,涉及1140条轨迹,发现了'结构一致性,参数变异性'的模式:代理可靠地按相同顺序选择工具,但参数有所不同,并且结构一致性能够预测任务的成功。