AI安全争论聚焦于错误的边界

Reddit r/AI_Agents 新闻

摘要

本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。

整个AI安全辩论仍然聚焦于错误的对象。每个人都沉迷于: \* 模型在想什么 \* 它拒绝什么 \* 它如何解释自己 \* 它是否足够对齐以表现良好 但那不是危险边界所在。危险时刻不是想法。危险时刻是授权。当AI智能体从建议跨越到执行时,问题彻底改变。我们不再是谈论聊天机器人。我们在谈论能够执行以下操作的智能体: \* 将代码部署到生产环境 \* 更改生产数据 \* 转移资金 \* 轮换密钥 \* 批准发布 \* 触发基础设施 \* 调用特权工具 在那一刻,对齐不再是边界。日志记录不是边界。监控不是边界。回滚为时已晚。那些都是事后或循环内的控制。你不会在子弹射出后去调试它。真正的问题简单到残酷:谁授权执行?如果同一个系统能够: 1. 生成行动 2. 评估行动 3. 批准行动 4. 执行行动 那么它就是自我授权的。那不是治理。那是一个贴上权限标签的闭环。这就是大多数AI智能体基础设施正在犯的范畴错误。人们正在构建: \* 更智能的智能体 \* 更好的策略 \* 更好的日志 \* 更好的监控 \* 审批流程 \* 运行时护栏 所有这些都可能有用。但若最终权威仍存在于执行环境中,执行者仍然是自身行动的法官。对于高影响自动化而言,那是错误的边界。执行者不应是自身执行的最终权威。以下是测试:行动能否在无外部允许决定的情况下进行?如果能,你拥有内部控制。你没有外部准入边界。如果不能,则至少存在执行与权威之间的真正分离。当AI智能体开始大规模接触部署、资金、凭证、基础设施和生产数据时,这种差异不再只是哲学性的。它成为受控自动化与自我授权机器之间的分界线。我们正在构建能够行动的系统,然后让行动系统决定是否应被允许行动。这就是问题所在。 TL;DR:如果你的智能体可以批准自己的高影响行动,你并没有安全。你拥有的是自我授权自动化。边界不是对齐。边界是外部准入。
查看原文

相似文章

代理安全即行动对齐

arXiv cs.AI

本文认为,将内容安全拒绝方法应用于AI代理是一种范畴错误——代理的危害在于权限滥用而非输出——并提出通过最小权限原则在模型外部强制实施行动对齐。

AI安全与对齐

Reddit r/artificial

文章讨论了对AI安全与对齐的担忧,随着AI变得更智能并融入社会,文章引用了Anthropic呼吁暂停以应对潜在的灾难性风险。