多智能体系统与单智能体系统

Reddit r/AI_Agents 新闻

摘要

本文指出,大多数所谓的“智能体化”系统实际上只是配备工具的单智能体,并强调了多智能体架构带来的高昂成本和复杂性。文章梳理了三种有效的多智能体模式——编排者-工作者、流水线以及点对点模式,并提供了判断何时采用多智能体而非单智能体的标准。

人们口中许多被称为“具备智能体特性(agentic)”的系统,本质上往往只是一个在循环中运作并配备两到三个工具的优质单智能体。引入多智能体架构会带来真实的成本:更高的延迟(每次交接都是一次网络调用)、更多的Token消耗(每个智能体都需要重新读取上下文)、更多的故障模式(任何一个工作者都可能输出无效结果)以及更大的调试表面(错误的输出可能源于五个环节中的任何一个)。 以下是三种实际存在的多智能体模式: **编排者-工作者模式(Orchestrator-worker)**:一个智能体负责规划和委派,专门的工作者智能体分别处理各个部分。例如,研究智能体拉取竞争对手数据,文案智能体起草文案,图像智能体生成核心视觉资产,审查智能体检查语调和声明。每个工作者拥有狭窄的职责范围,仅配备所需的工具。当各个步骤确实是截然不同的任务、需要不同领域的专家时,这种模式最为适用。 **流水线模式(Pipeline)**:线性交接。智能体 A 完成任务后,智能体 B 基于 A 的输出开始工作,C 再基于 B 的输出工作。例如,收到支持工单后:分类意图 -> 提取客户 ID -> 起草回复 -> 检查语调。这种模式易于调试,因为每个阶段只有一个输入和一个输出。当各个步骤相互独立且顺序固定时,建议使用此模式。 **点对点模式(Peer-to-peer)**:多个智能体通过辩论达成共识。例如,三个代码审查智能体阅读同一个 PR(拉取请求),一个关注正确性,一个关注安全性,一个关注可读性。一个裁判智能体阅读这三份报告并决定哪些内容阻碍了合并。当单一视角不足以解决问题,且不同意见能提升答案质量时,建议使用此模式。 请注意以下几点: * 这些步骤是否真正可以并行处理,即同时运行它们能节省大量时间? * 不同阶段是否需要不同的工具或提示词(prompt),而这些无法整合进一个智能体中? * 是否需要将“批评者”与“执行者”角色分离? 如果上述问题中有两个或以上的答案为“是”,则应选择多智能体系统。如果答案为一个或零个,则使用配备良好工具的单智能体系统即可。
查看原文

相似文章

多智能体系统是运行时问题,而非提示工程问题

Reddit r/ArtificialInteligence

文章认为多智能体系统需要运行时基础设施层,而非更好的提示,引用了 MiniMax、OpenAI、Google 和 Anthropic 的发布。文章强调了工作者与验证者角色的分离以及多智能体设置的开销成本。

观点:Agentic AI系统是实现AGI的可预见路径

arXiv cs.AI

本文认为,单一模型的单体型扩展不足以实现AGI,并提出具有多智能体协作的Agentic AI是必要的范式,理论上证明了代理系统在泛化和样本效率上具有指数级优势。

构建高效的智能体

Anthropic Engineering

Anthropic 发布了构建高效 AI 智能体的工程指南,倡导采用简单、可组合的模式以及直接使用 API,而非依赖复杂的框架。文章区分了工作流与自主智能体,并就何时使用每种架构提供了实用建议。