外部准入不是拦截
摘要
作者认为当前AI代理的安全措施(如护栏和监控)不足,提出“外部准入”作为一种更严格的模式,即暂扣执行权限,直到外部权威明确允许高风险操作。
大多数AI代理安全讨论仍集中在提示、护栏、沙箱、策略引擎、监控或日志上。这些控制措施很有用,但我认为它们并未回答真正的边界问题:自动化操作能否在没有外部允许决策的情况下执行?如果可以,系统可能具备策略、验证、监控、审批逻辑、IAM、MCP拦截、日志记录或沙箱化——但这并非外部准入。外部准入不仅仅是检查操作。外部准入意味着执行权限被暂扣,直到外部权威发出有效的允许决策。代理可能形成意图。工作流可能准备提案。工具运行器可能准备执行。但行动权限不得由同一代理、工作流或执行域自行签发,这些域正是希望执行带有后果的操作的实体。区别很简单:内部策略控制执行器内部的行为。外部准入决定是否授予执行权限。对于高风险操作——部署、删除、修改数据、访问秘密、触发支付、调用特权API或变更基础设施——重要的特性是故障关闭行为。如果外部权威不可达、静默、无效或拒绝准入,操作不得进行。无准入 = 无执行。我发布了一个小型证明页面,展示了这种狭窄模式。我将根据子版规在评论中添加链接。这不是一个通用安全声明。它是一个针对带有后果的自动化操作的具体的执行前边界模式。代理可以提议。边界进行准入。执行器仅在准入后行动。无准入 = 无执行。
相似文章
若人类无法审查操作,批准不等于审查
本文认为,对于AI智能体操作的批准,若无法详细审查操作的上下文、变更、可逆性及所有权,则这种批准是不充分的,尤其在高风险任务中。
智能体需要控制流,而非更多提示词
文章认为,可靠的 AI 智能体需要在软件中具备确定性的控制流和程序化验证机制,而不能仅仅依赖复杂的提示词链。
面向特定领域智能体的符号护栏:不牺牲实用性的更强安全与保障
本文提出符号护栏,通过具体策略为特定领域AI智能体提供可证明的安全与保障,同时不降低实用性;实验显示74%的指定策略可通过简单机制强制执行。
@djfarrelly: https://x.com/djfarrelly/status/2052779234234380479
本文主张,AI Agent 的开发应基于稳定的执行原语,而非会随新兴编排模式频繁更迭的僵化框架。文章强调,采用持久化步骤、持久状态、并行协调、事件驱动流程以及可观测性设计,可有效避免因最佳实践不断演进而付出的高昂重写代价。
多智能体人工智能系统中的授权传播:将身份治理作为基础设施
本文引入了“授权传播”这一多智能体人工智能系统中独特的安全挑战,并提出必须将身份治理视为基础设施,以在自主智能体交互中维持授权不变量。