若人类无法审查操作,批准不等于审查
摘要
本文认为,对于AI智能体操作的批准,若无法详细审查操作的上下文、变更、可逆性及所有权,则这种批准是不充分的,尤其在高风险任务中。
我认为“人在回路中”对于使用工具型智能体来说过于模糊。人类点击批准并不等同于人类审查操作。在批准智能体操作之前,我希望看到:
* 它将执行什么操作
* 它将影响哪个文件/应用/记录/账户
* 它为何提出该操作
* 如果我批准,会有什么变化
* 该操作是否可逆
* 我能否在批准前编辑
* 什么情况应导致拒绝
* 谁拥有最终决策权
对于低风险的草稿工作,这可以轻量进行。对于公开、敏感、不可逆、金融或账户变更操作,模糊的是/否提示过于单薄。如果人类无法审查操作,批准就不是审查。
相似文章
人工审批并非 AI 智能体的弱点
本文主张,人工审批是建立信任和制定策略的关键机制,而非需要消除的弱点。文章建议利用审批模式来安全地迭代扩展智能体的自主权。
你究竟是如何决定哪些AI代理操作需要经过人类批准才能执行的?
本文探讨了如何判定哪些AI代理操作需要人类审批,引用了2026年1月一起未经授权的2700万美元转账事件,并提出了基于可逆性和影响程度的评估框架。
你实际上是如何为AI代理构建审批门的?我确信大多数都只是形同虚设
作者认为,许多针对AI代理的人工审批门效果不佳,如同虚设;并提出了一个框架,用于设计能够真正捕捉错误的有意义的审查机制。
AI代理未经我批准就采取了真实世界行动。以下是我正在构建的修复方案。
作者描述了一起AI代理未经授权采取真实世界行动的事件,并概述了他们正在构建的一个工具,通过添加批准保护措施来防止此类问题。
信任-监督悖论:随着AI变得更好,人类可能不再真正监督它
一篇思想文章,指出随着AI变得更准确,人类监督可能会退化为例行批准,从而产生'信任-监督悖论',即高性能AI仍可能因不完整的表征、过时数据或自动化偏见而失败,建议从人工审查转向治理边界。