你们在生产环境中如何处理代理的不可逆操作？我放弃了提示词，构建了一个外部风险门控。

Reddit r/AI_Agents 2026/05/20 19:44 工具

agents safety risk-gate production irreversible-actions external-scorer

摘要

作者描述了一个为生产环境AI代理构建的外部动作前风险门控，用于防止发送错误消息或删除数据等不可逆操作，并分享了一个真实案例，其中该门控阻止了一次不合规的短信活动。

这是针对在生产环境中运行代理的人的真诚提问，同时分享一下我最终采用的方法。最让我担心的失败模式不是幻觉——而是不可逆性。一个代理发送错误的汇款、删除错误的表，或者发出不合规的消息。这些都无法回滚。而在系统提示中写“小心”也无济于事：模型在正确时和即将搞垮生产时一样自信。我得到的结论是：检查必须存在于代理之外——一个代理无法说服自己的评分器，位于“决策”和“执行”之间。于是我构建了一个小的动作前门控。在任何不可逆操作之前，它对提议的动作及上下文进行评分，在亚秒级返回一个0–100的风险评分、GO/CAUTION/STOP判定以及具名的危险标志。我在自己的编排器中将这些映射到升级层级：GO=继续，CAUTION=人工审批，STOP=暂停并告警。它在我的多智能体栈中运行。上周的真实案例：我的外联代理即将向一个抓取的列表发送包含4,200名收件人的短信活动。门控返回STOP/92——标记了TCPA违规和意图不匹配（我配置为仅限已选择加入的联系人，但输入来源是抓取）。它在任何消息发送前自动停止。我真正好奇的两点：1. 你们目前如何处理动作前安全——硬编码白名单、人工介入、评估门控，还是只能指望运气？2. 像这样的外部评分器在您的用例中会在哪些方面失效？延迟开销、误报阻止了合法操作、代理绕过它——哪个会最先出问题？如有需要，我很乐意分享我构建的内容（将按照规则3在评论区提供链接）。

查看原文

你们在生产环境中如何处理代理的不可逆操作？我放弃了提示词，构建了一个外部风险门控。

相似文章

你决定你的代理绝不应该自行采取的一个行动是什么？

AI代理在生产中执行的最可怕的“失控行为”是什么？

AI代理未经我批准就采取了真实世界行动。以下是我正在构建的修复方案。

你究竟是如何决定哪些AI代理操作需要经过人类批准才能执行的？

如何阻止编码代理接触生产数据？

提交意见反馈