为什么80%的智能体AI演示无法投入生产

Reddit r/AI_Agents 新闻

摘要

本文解释了为什么80%的智能体AI演示因幻觉、工具使用错误累积、边缘情况、成本、延迟和可观测性问题而无法进入生产环境。文章强调了成功的关键:窄范围、可验证输出、人工检查点、真实可观测性、基于置信度的门控以及简单架构。

**Agent演示很容易。生产环境下的Agent很难。以下是导致演示在尝试上线时失败的6个原因。** 我以审核智能体AI项目为生。规律残酷地一致。以下是导致80%的项目从演示到生产失败的原因。 **1. 关键输出中的幻觉** 演示:Agent在95%的情况下回答正确。神奇。生产:5%的错误面对客户输出 = 诉讼或客户流失。解决方案是可验证性,而不是更好的模型。Agent必须引用,而不是猜测。 **2. 工具使用错误累积** 演示:3步工作流完美运行,因为每一步都是理想路径。生产:每一步可靠性为90%。3步累积到73%。5步到59%。数学毫不留情。要么减少步骤,要么增加重试,要么添加人工检查点。 **3. 边缘情况和歧义** 演示:干净的输入,清晰的请求。生产:客户用3种不同语言输入,忘记提及关键上下文,询问Agent无权操作的事情。没有明确的策略,Agent处理得很差。 **4. 规模化后的成本** 演示:每个任务5次LLM调用感觉还行。生产:每天10,000个任务 × 5次调用 × $0.10 = 每天$5k,每年$1.8M。大多数团队没有按规模定价Agent。他们在第二个月才被账单吓到。 **5. 延迟** 演示:8秒响应可以接受,因为你印象深刻。生产:客户不会等待8秒来获取聊天机器人的回复。大多数用例的延迟预算为端到端2-3秒。这迫使架构变更。 **6. 可观测性和调试** 演示:在笔记本电脑上工作。生产:Agent做了奇怪的事情。为什么?日志分布在5个系统中。没有回放。没有测试。调试需要数小时。 **成功的20%做对了什么** \- 窄范围(一个工作流,而不是一个平台) \- 可验证输出(引用,不猜测) \- 高风险决策的人工检查点 \- 真实可观测性(langfuse、自定义追踪) \- 基于置信度的门控(并非所有Agent响应都未经审查就发出) \- 简单架构(状态机 + LLM 优于纯 LLM 链) 如果你的演示令人印象深刻,团队兴奋不已,那你已经走了10%的路。请据此规划。
查看原文

相似文章

我在AI项目中经常看到但没人公开讨论的事情

Reddit r/AI_Agents

本文指出,许多AI代理项目在生产环境中失败,并非因为模型质量,而是因为团队在发布前没有明确定义何为失败,忽略了关键边缘案例,导致自信地输出错误结果。