AI安全争论聚焦于错误的边界
摘要
本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。
整个AI安全辩论仍然聚焦于错误的对象。每个人都沉迷于:
\* 模型在想什么
\* 它拒绝什么
\* 它如何解释自己
\* 它是否足够对齐以表现良好
但那不是危险边界所在。危险时刻不是想法。危险时刻是授权。当AI智能体从建议跨越到执行时,问题彻底改变。我们不再是谈论聊天机器人。我们在谈论能够执行以下操作的智能体:
\* 将代码部署到生产环境
\* 更改生产数据
\* 转移资金
\* 轮换密钥
\* 批准发布
\* 触发基础设施
\* 调用特权工具
在那一刻,对齐不再是边界。日志记录不是边界。监控不是边界。回滚为时已晚。那些都是事后或循环内的控制。你不会在子弹射出后去调试它。真正的问题简单到残酷:谁授权执行?如果同一个系统能够:
1. 生成行动
2. 评估行动
3. 批准行动
4. 执行行动
那么它就是自我授权的。那不是治理。那是一个贴上权限标签的闭环。这就是大多数AI智能体基础设施正在犯的范畴错误。人们正在构建:
\* 更智能的智能体
\* 更好的策略
\* 更好的日志
\* 更好的监控
\* 审批流程
\* 运行时护栏
所有这些都可能有用。但若最终权威仍存在于执行环境中,执行者仍然是自身行动的法官。对于高影响自动化而言,那是错误的边界。执行者不应是自身执行的最终权威。以下是测试:行动能否在无外部允许决定的情况下进行?如果能,你拥有内部控制。你没有外部准入边界。如果不能,则至少存在执行与权威之间的真正分离。当AI智能体开始大规模接触部署、资金、凭证、基础设施和生产数据时,这种差异不再只是哲学性的。它成为受控自动化与自我授权机器之间的分界线。我们正在构建能够行动的系统,然后让行动系统决定是否应被允许行动。这就是问题所在。
TL;DR:如果你的智能体可以批准自己的高影响行动,你并没有安全。你拥有的是自我授权自动化。边界不是对齐。边界是外部准入。
相似文章
AI 代理最危险的部分始于其获得执行权限之时
本文强调了 AI 代理获得基础设施执行权限所带来的关键风险,认为如果没有外部准入层来防止灾难性故障,现有的安全护栏是不够的。
我们尚未讨论的 AI 代理中的显性安全漏洞:输出即权威的那一刻
本文强调了 AI 代理中的一项关键安全漏洞,即输出执行绕过了适当的权限检查,主张在授予受信任的上下文或密钥之前设置“外部准入”门禁。
外部准入不是拦截
作者认为当前AI代理的安全措施(如护栏和监控)不足,提出“外部准入”作为一种更严格的模式,即暂扣执行权限,直到外部权威明确允许高风险操作。
通过辩论实现AI安全
OpenAI提出了一种新颖的AI安全方法,其中两个AI代理相互辩论,而人类评判员评估他们的论证,这使人类能够监督行为过于复杂而难以直接理解的AI系统。该方法利用辩论和对抗性推理来使先进AI与人类价值观和偏好保持一致。
AI安全的另一半
文章批评AI安全领域专注于灾难性风险,却忽视了像ChatGPT这样的聊天机器人对日常心理健康的危害。引用OpenAI自身数据,数百万用户表现出精神病、躁狂或自杀意念的迹象,却仅被重定向,未进行硬性拦截。