大多数 AI Agent 的失败是组织设计失败,而非模型失败

Reddit r/AI_Agents 新闻

摘要

文章认为,生产环境中 AI Agent 的失败往往归因于糟糕的组织设计和模糊的责任边界,而非模型本身的局限性。文章提出了一种成熟度模型,区分了 AI 助手、自动化流程和 AI 员工,以指导任务所有权的确立。

我一直关注最近关于为什么许多“AI Agent”在生产环境中失败的讨论,我赞同“优先自动化”的观点。许多所谓的 Agent 实际上只是包含一两个大语言模型(LLM)调用的工作流。但我认为,往往还有一个被忽视的层面:组织设计。在公司里,Agent 的失败不仅仅是因为它产生幻觉或选错了工具。它还因为没有人明确定义以下事项:* 谁拥有该任务 * 谁对输出结果负责 * Agent 被允许做出哪些决定 * 何时需要人工审核结果 * 何时工作流足够稳定,无需监督即可运行 我目前的观点是,我们应该区分三个概念:**1. AI 助手** AI 助手归属于某个人类角色。它帮助人类员工进行写作、分析、搜索、总结或执行任务的部分环节。人类仍然拥有责任归属。**2. 自动化** 自动化是一个边界清晰的工作流,具有明确的步骤、规则、输入、输出和异常处理机制。它可能包含 LLM 调用,但它并不“拥有”该任务。**3. AI 员工** “AI 员工”不应意味着“一个自主 Agent”。它应指代一个角色级的系统:由一组任务 Agent、工具、记忆模块、权限、监控机制以及一个管理器/调度器 Agent 组成。它在明确设计的工作系统中拥有稳定类别的任务所有权。这表明了一条可行的路径:一项任务首先应由人类员工在 AI 助手的帮助下处理。如果该任务变得稳定且可重复,它可以转化为自动化流程。如果自动化流程在无需持续人工监督的情况下表现良好,它可以被纳入 AI 员工角色,由人类经理或工作站负责人监督。因此,真正的问题不在于“我们是否应该构建一个 Agent?”更好的问题是:**哪些任务已经足够成熟,可以从“人类主导的 AI 辅助”转变为“系统主导的 AI 执行”?** 很好奇其他人对此的看法。对于在真实企业中构建或部署 Agent 的人们:你们是在构建 Agent 之前定义任务所有权和责任边界,还是在失败之后才逐渐明确这些界限?
查看原文

相似文章

AI代理最诡异的一点:人类失败模式开始显现

Reddit r/AI_Agents

作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。

更智能的AI代理并不意味着更好的AI代理

Reddit r/AI_Agents

文章认为,提高AI代理的能力并不会自然而然地提升其可靠性,强调需要建立类似会计标准的稳健控制系统、审计和人类监督,以防止令人信服的失败。