你究竟是如何决定哪些AI代理操作需要经过人类批准才能执行的？

Reddit r/AI_Agents 2026/06/09 01:09 新闻

agent-architecture human-approval safety ai-agents guardrails incident

摘要

本文探讨了如何判定哪些AI代理操作需要人类审批，引用了2026年1月一起未经授权的2700万美元转账事件，并提出了基于可逆性和影响程度的评估框架。

我一直在思考在代理架构中，审批关卡究竟应该设在何处，但总绕不开同一个问题：大多数团队要么关卡设得太多（导致代理变得几乎无法使用），要么完全不设关卡，寄希望于模型自己做出正确决策。2026年1月，一个AI代理在没有人工审批关卡的情况下转移了2700万美元。这既不是越狱攻击，也不是提示注入——代理拥有相应权限，而系统中根本不存在审批关卡。这完全是一个设计失误。我最终采用的分析框架包含两个维度：可逆性和影响程度。若两者皆高，则应在执行前设卡审批；若两者皆低，则可放手运行。真正的难题在于对角线情形——可逆性低但影响程度低，或者影响程度高但容易逆转。但即便如此，我仍有一些未解的疑问：当审批关卡无人响应时该怎么办？是默认阻止，还是默认继续？我强烈认为应该默认拒绝，但我见过一些团队出于用户体验考虑主张相反的做法。当级联工具调用发生时，一个经批准的操作触发了另一个同样需要审批的操作，这时应该如何处理？第一次的批准能否延续？此外，金融操作在什么金额阈值下需要设置审批关卡？1000美元？10000美元？这完全取决于具体用例，但我尚未看到有人提出标准化的框架。我很好奇其他团队在生产环境中是如何划定这些边界线的。大家实际采用的是哪些判断标准？

查看原文

你究竟是如何决定哪些AI代理操作需要经过人类批准才能执行的？

相似文章

AI代理未经我批准就采取了真实世界行动。以下是我正在构建的修复方案。

若人类无法审查操作，批准不等于审查

关于智能体采取真实行动时人类审批的三层问题

当AI智能体采取实际行动时，授权究竟在哪里执行？

人工审批对于生产级智能体来说过于模糊

提交意见反馈