你究竟是如何决定哪些AI代理操作需要经过人类批准才能执行的?

Reddit r/AI_Agents 新闻

摘要

本文探讨了如何判定哪些AI代理操作需要人类审批,引用了2026年1月一起未经授权的2700万美元转账事件,并提出了基于可逆性和影响程度的评估框架。

我一直在思考在代理架构中,审批关卡究竟应该设在何处,但总绕不开同一个问题:大多数团队要么关卡设得太多(导致代理变得几乎无法使用),要么完全不设关卡,寄希望于模型自己做出正确决策。2026年1月,一个AI代理在没有人工审批关卡的情况下转移了2700万美元。这既不是越狱攻击,也不是提示注入——代理拥有相应权限,而系统中根本不存在审批关卡。这完全是一个设计失误。我最终采用的分析框架包含两个维度:可逆性和影响程度。若两者皆高,则应在执行前设卡审批;若两者皆低,则可放手运行。真正的难题在于对角线情形——可逆性低但影响程度低,或者影响程度高但容易逆转。但即便如此,我仍有一些未解的疑问:当审批关卡无人响应时该怎么办?是默认阻止,还是默认继续?我强烈认为应该默认拒绝,但我见过一些团队出于用户体验考虑主张相反的做法。当级联工具调用发生时,一个经批准的操作触发了另一个同样需要审批的操作,这时应该如何处理?第一次的批准能否延续?此外,金融操作在什么金额阈值下需要设置审批关卡?1000美元?10000美元?这完全取决于具体用例,但我尚未看到有人提出标准化的框架。我很好奇其他团队在生产环境中是如何划定这些边界线的。大家实际采用的是哪些判断标准?
查看原文

相似文章

若人类无法审查操作,批准不等于审查

Reddit r/AI_Agents

本文认为,对于AI智能体操作的批准,若无法详细审查操作的上下文、变更、可逆性及所有权,则这种批准是不充分的,尤其在高风险任务中。

代理规则必须存在于操作发生的地方

Reddit r/AI_Agents

本文主张,人工智能代理的安全规则应作为硬性工作流约束和权限来实现,而非仅依赖提示词指令。文章强调对于敏感或不可逆的操作,需要明确的检查、审批和日志记录。

人工审批并非 AI 智能体的弱点

Reddit r/AI_Agents

本文主张,人工审批是建立信任和制定策略的关键机制,而非需要消除的弱点。文章建议利用审批模式来安全地迭代扩展智能体的自主权。