我们在生产环境的 AI 智能体中加入了管控层——关于那些无人谈论的失效模式，我们学到了什么

Reddit r/AI_Agents 2026/05/11 19:36 新闻

摘要

作者探讨了在生产环境部署 AI 智能体时遇到的关键失效模式，强调了提示词注入的普遍性、实时治理与审计追踪的必要性，以及对极速紧急熔断开关的需求。文章指出，将执行管控视为基础设施而非事后补救，是维持控制与合规的关键。

在将 AI 智能体发布到真正的生产环境后，真正让我们彻夜难安的失败并非幻觉或不良输出——而是**管控失效**。有三件事让我们感到意外： **1. 提示词注入比你想象的更常见** 这并不需要复杂的攻击者。一个格式错误的用户输入、RAG 管道中毒的文档、一个异常的工具响应——其中任何一项都可能重定向你智能体的行为。如果没有执行管控层，它就会照单执行。 **2. “稍后再加治理”行不通** 合规团队并不关心你们当时为了速度牺牲了什么。当他们要求*“展示过去 90 天内该智能体针对客户数据所做的每一个操作”*时——要么你有密码学签名的审计追踪，要么没有。这种事无法事后补救。 **3. 紧急熔断开关必须够快** 当生产环境出问题时，你不想 SSH 进服务器去处理。你需要组织范围内的智能体停用在 15ms 内完成。我们是吃尽了苦头才学会这一点的。对我们真正有效的模式：将执行管控视为基础设施，而非事后补救。执行*之前*的闸门——而不是之后*的记录*。很好奇其他构建生产级智能体的同行是否遇到过类似问题。你们现在如何处理策略执行和审计追踪？*（我们为这个问题构建了某种方案——乐意在评论区分享）*

查看原文

我们在生产环境的 AI 智能体中加入了管控层——关于那些无人谈论的失效模式，我们学到了什么

相似文章

生产环境中的AI代理：演示中绝不会提及的失败模式

关于 AI 智能体的真实内情

AI 代理最危险的部分始于其获得执行权限之时

我在AI项目中经常看到但没人公开讨论的事情

我分析了 50 多个 AI 团队如何调试生产环境中的智能体故障，结果令人意外

提交意见反馈