外部准入不是拦截

Reddit r/AI_Agents 2026/05/08 09:16 新闻

摘要

作者认为当前AI代理的安全措施（如护栏和监控）不足，提出“外部准入”作为一种更严格的模式，即暂扣执行权限，直到外部权威明确允许高风险操作。

大多数AI代理安全讨论仍集中在提示、护栏、沙箱、策略引擎、监控或日志上。这些控制措施很有用，但我认为它们并未回答真正的边界问题：自动化操作能否在没有外部允许决策的情况下执行？如果可以，系统可能具备策略、验证、监控、审批逻辑、IAM、MCP拦截、日志记录或沙箱化——但这并非外部准入。外部准入不仅仅是检查操作。外部准入意味着执行权限被暂扣，直到外部权威发出有效的允许决策。代理可能形成意图。工作流可能准备提案。工具运行器可能准备执行。但行动权限不得由同一代理、工作流或执行域自行签发，这些域正是希望执行带有后果的操作的实体。区别很简单：内部策略控制执行器内部的行为。外部准入决定是否授予执行权限。对于高风险操作——部署、删除、修改数据、访问秘密、触发支付、调用特权API或变更基础设施——重要的特性是故障关闭行为。如果外部权威不可达、静默、无效或拒绝准入，操作不得进行。无准入 = 无执行。我发布了一个小型证明页面，展示了这种狭窄模式。我将根据子版规在评论中添加链接。这不是一个通用安全声明。它是一个针对带有后果的自动化操作的具体的执行前边界模式。代理可以提议。边界进行准入。执行器仅在准入后行动。无准入 = 无执行。

查看原文

外部准入不是拦截

相似文章

AI安全争论聚焦于错误的边界

我们尚未讨论的 AI 代理中的显性安全漏洞：输出即权威的那一刻

AI 代理最危险的部分始于其获得执行权限之时

维持AI安全：控制理论的外部不可能性、内在必要性及结构性要求

AI代理可能需要更少的自由，而非更多。

提交意见反馈