AI 代理最危险的部分始于其获得执行权限之时
摘要
本文强调了 AI 代理获得基础设施执行权限所带来的关键风险,认为如果没有外部准入层来防止灾难性故障,现有的安全护栏是不够的。
在一个周五的晚上,一家大型公司内部的一个 AI 代理被分配了一项常规任务:降低预发布环境(staging)的云成本。没什么不寻常的。团队已经开始自动化这类工作。该代理阅读了工单,检查了基础设施,更新了 Terraform,并触发了工作流。一切看起来都很正常。检查结果显示为绿色。日志正在写入。审批流程已存在。安全扫描未发现任何关键问题。大约三十分钟后,他们发现预发布环境与一个大客户的重要演示环境相连。变更之后,部分 API 停止响应,在重要会议前夕集成中断,且回滚未能干净地恢复,因为代理已经改变了环境的状态。接下来便是老一套的混乱:谁批准了这次操作,为什么扫描器没有检测到,安全护栏在哪里,为什么策略没有覆盖这种情况。但真正的问题完全出在其他地方。系统允许在希望执行操作的环境中直接从内部执行操作。只要 AI 仅生成文本,它在很大程度上只是一个玩具。一旦 AI 获得行动能力:触发工作流、修改基础设施、涉及资金、权限、生产系统,一切都变了。而且感觉整个行业正朝着一个奇怪的方向发展。大家都在谈论模型质量、幻觉、对齐、护栏,但几乎没有人谈论最危险的问题:谁实际上授予了执行权限。因为事件发生后的日志无法挽救局面。事件发生后的扫描器也无法挽救局面。审计追踪无法倒转状态。如果 AI 系统将执行高影响的操作,那么在执行之前需要一个外部准入层,该层不属于执行环境本身。不是建议。不是软策略。是一个单独的二元边界:允许或拒绝执行。没有准入,就没有执行。而且,AI 代理获得的权限越多,行业撞上这个问题速度就越快。
相似文章
外部准入不是拦截
作者认为当前AI代理的安全措施(如护栏和监控)不足,提出“外部准入”作为一种更严格的模式,即暂扣执行权限,直到外部权威明确允许高风险操作。
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
代理规则必须存在于操作发生的地方
本文主张,人工智能代理的安全规则应作为硬性工作流约束和权限来实现,而非仅依赖提示词指令。文章强调对于敏感或不可逆的操作,需要明确的检查、审批和日志记录。
通往AGI之路中的安全保护
OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。