你究竟是如何决定哪些AI代理操作需要经过人类批准才能执行的?
摘要
本文探讨了如何判定哪些AI代理操作需要人类审批,引用了2026年1月一起未经授权的2700万美元转账事件,并提出了基于可逆性和影响程度的评估框架。
我一直在思考在代理架构中,审批关卡究竟应该设在何处,但总绕不开同一个问题:大多数团队要么关卡设得太多(导致代理变得几乎无法使用),要么完全不设关卡,寄希望于模型自己做出正确决策。2026年1月,一个AI代理在没有人工审批关卡的情况下转移了2700万美元。这既不是越狱攻击,也不是提示注入——代理拥有相应权限,而系统中根本不存在审批关卡。这完全是一个设计失误。我最终采用的分析框架包含两个维度:可逆性和影响程度。若两者皆高,则应在执行前设卡审批;若两者皆低,则可放手运行。真正的难题在于对角线情形——可逆性低但影响程度低,或者影响程度高但容易逆转。但即便如此,我仍有一些未解的疑问:当审批关卡无人响应时该怎么办?是默认阻止,还是默认继续?我强烈认为应该默认拒绝,但我见过一些团队出于用户体验考虑主张相反的做法。当级联工具调用发生时,一个经批准的操作触发了另一个同样需要审批的操作,这时应该如何处理?第一次的批准能否延续?此外,金融操作在什么金额阈值下需要设置审批关卡?1000美元?10000美元?这完全取决于具体用例,但我尚未看到有人提出标准化的框架。我很好奇其他团队在生产环境中是如何划定这些边界线的。大家实际采用的是哪些判断标准?
相似文章
若人类无法审查操作,批准不等于审查
本文认为,对于AI智能体操作的批准,若无法详细审查操作的上下文、变更、可逆性及所有权,则这种批准是不充分的,尤其在高风险任务中。
代理规则必须存在于操作发生的地方
本文主张,人工智能代理的安全规则应作为硬性工作流约束和权限来实现,而非仅依赖提示词指令。文章强调对于敏感或不可逆的操作,需要明确的检查、审批和日志记录。
人工审批并非 AI 智能体的弱点
本文主张,人工审批是建立信任和制定策略的关键机制,而非需要消除的弱点。文章建议利用审批模式来安全地迭代扩展智能体的自主权。
你们在生产环境中如何处理代理的不可逆操作?我放弃了提示词,构建了一个外部风险门控。
作者描述了一个为生产环境AI代理构建的外部动作前风险门控,用于防止发送错误消息或删除数据等不可逆操作,并分享了一个真实案例,其中该门控阻止了一次不合规的短信活动。
AI代理即将制造一个无人愿意承担的责任问题
随着AI代理从提供答案转向在实际工作流程中采取行动——例如处理付款、客户数据和审批——其错误缺乏明确问责制成为了一个关键问题。