外部准入不是拦截
摘要
作者认为当前AI代理的安全措施(如护栏和监控)不足,提出“外部准入”作为一种更严格的模式,即暂扣执行权限,直到外部权威明确允许高风险操作。
大多数AI代理安全讨论仍集中在提示、护栏、沙箱、策略引擎、监控或日志上。这些控制措施很有用,但我认为它们并未回答真正的边界问题:自动化操作能否在没有外部允许决策的情况下执行?如果可以,系统可能具备策略、验证、监控、审批逻辑、IAM、MCP拦截、日志记录或沙箱化——但这并非外部准入。外部准入不仅仅是检查操作。外部准入意味着执行权限被暂扣,直到外部权威发出有效的允许决策。代理可能形成意图。工作流可能准备提案。工具运行器可能准备执行。但行动权限不得由同一代理、工作流或执行域自行签发,这些域正是希望执行带有后果的操作的实体。区别很简单:内部策略控制执行器内部的行为。外部准入决定是否授予执行权限。对于高风险操作——部署、删除、修改数据、访问秘密、触发支付、调用特权API或变更基础设施——重要的特性是故障关闭行为。如果外部权威不可达、静默、无效或拒绝准入,操作不得进行。无准入 = 无执行。我发布了一个小型证明页面,展示了这种狭窄模式。我将根据子版规在评论中添加链接。这不是一个通用安全声明。它是一个针对带有后果的自动化操作的具体的执行前边界模式。代理可以提议。边界进行准入。执行器仅在准入后行动。无准入 = 无执行。
相似文章
AI安全争论聚焦于错误的边界
本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。
我们尚未讨论的 AI 代理中的显性安全漏洞:输出即权威的那一刻
本文强调了 AI 代理中的一项关键安全漏洞,即输出执行绕过了适当的权限检查,主张在授予受信任的上下文或密钥之前设置“外部准入”门禁。
AI 代理最危险的部分始于其获得执行权限之时
本文强调了 AI 代理获得基础设施执行权限所带来的关键风险,认为如果没有外部准入层来防止灾难性故障,现有的安全护栏是不够的。
维持AI安全:控制理论的外部不可能性、内在必要性及结构性要求
本文运用控制理论证明,一旦系统的影响超出有限外部控制所能抵消的范围,外部强制的AI安全策略将在结构上失败,而任何剩余的可行策略必须是内在的,并满足特定的结构性要求。
AI代理可能需要更少的自由,而非更多。
文章认为,AI代理的关键问题不在于能力,而在于行动范围,建议根据风险建立分级权限系统,而非从一开始就完全自主。