维持AI安全:控制理论的外部不可能性、内在必要性及结构性要求
摘要
本文运用控制理论证明,一旦系统的影响超出有限外部控制所能抵消的范围,外部强制的AI安全策略将在结构上失败,而任何剩余的可行策略必须是内在的,并满足特定的结构性要求。
arXiv:2605.12963v1 公告类型:新
摘要:随着AI系统能力日益增强,安全策略的评估不仅要看它们能在多大程度上降低当前风险,更要看当外部控制无法再可靠约束系统行为时,它们能否维持安全。本文利用控制理论,从结构层面阐明外部强制的安全维持策略能否成功,如果不能,任何替代策略必须满足什么条件才切实可行。论文得出两个主要结果。首先,在包括可达性条件在内的明确前提假设下,它证明了一个全局性的外部不可能性结果:一旦系统的影响超出有限外部控制所能抵消的范围,任何在一定程度上依赖持续外部强制执行的策略都无法维持AI安全。这种失败是整个外部强制策略类的结构性失败,而非特定策略的偶然问题。其次,它建立了一个条件性的类级必要性结果:如果在上述排除后仍有至少一个候选安全维持策略存在,那么所有此类剩余策略都必须是内在的。接着,论文提出了可行性的四个结构性要求:安全不能依赖持续的外部强制;系统形成时的最终目标必须与安全兼容;该目标在自我修改时必须保持稳定;随着能力增长,安全必须持续得到保障。本文并未提出一个完整的AI安全维持策略。其贡献在于为一种普遍存在的关于外部控制局限性的担忧提供了形式化结构,具体方式是推导出明确的推论结果,指出哪些安全维持策略被排除以及任何剩余策略必须满足什么条件。
查看缓存全文
缓存时间: 2026/05/14 06:14
# 1. 引言 来源:https://arxiv.org/html/2605.12963 维持AI安全:控制理论视角下的外部不可能性、内在必然性与结构性要求 James M\. Mazzu Digie Inc\. jmazzu@digie\.ai 摘要 随着人工智能系统能力日益增强,评估安全策略的标准不仅要看它们能在多大程度上降低当前风险,更要看当外部控制不再能可靠约束系统行为时,它们是否仍能维持安全。本文通过运用控制理论,在结构层面上阐明:依赖于外部强制执行的安全维持策略是否可能成功,若不可能,任何替代策略需满足何种条件才具可行性。本文得出两个主要结论。首先,在包括可达性条件在内的明确前提假设下,本文证明了一类广泛的外部不可能性结果:一旦系统的影响超出了有界外部控制所能抵消的范围,任何在某种程度上依赖于持续外部执行的策略都无法维持AI安全。这一失败是整个外部执行策略类在结构层面上的普遍现象,而非个别策略的特殊情况。其次,本文建立了一个条件性的类层面必然性结果:如果在排除外部执行策略类后,至少还存在一个候选的安全维持策略,那么所有这类剩余策略必须是内在的。随后,本文阐述了四项确保可行性的结构性要求:安全不得依赖于持续的外部执行;系统初始形成时的终端目标必须与安全兼容;该目标在自我修改过程中必须保持稳定;并且随着能力增长,安全必须持续得到维护。本文未提出维持AI安全的完整策略,其贡献在于将关于外部控制局限性的一个普遍担忧赋予形式化结构。具体做法是推导出明确的条件性结果,指出哪些安全维持策略被排除,以及任何剩余策略必须满足什么条件。 关键词: AI安全, 对齐, 安全维持策略, 控制理论, 外部控制, 内在安全 人工智能的快速发展加剧了AI安全与对齐领域一个长期存在的问题:当系统变得比其设计者和监管者更强大时,究竟有什么(如果有的话)能够维持AI安全?当前的方法对AI安全做出了重要贡献。偏好学习、可扩展监督、宪法方法、可解释性、评估、红队测试、输出过滤、治理层、矫正性微调及其他安全干预措施,能够降低风险、改善行为、揭示故障模式、约束部署或支持更安全的治理。然而,它们本身并未解决两个更深层次的结构性问题: - •如果一个声称的安全维持策略在任何程度上依赖于持续的外部执行,那么一旦系统自身的影响力超过外部控制所能抵消的范围,该策略是否还能保持有效? - •如果不能,任何剩余的候选安全维持策略必须提供什么替代方案? 本文通过两个条件性结果回答了这些问题。首先,在一个正则性假设(A1)和两个经验前提(A2和A3)下,本文证明了一个定理层面的、类广泛的外部不可能性结果:一旦系统的影响超出有界外部控制所能抵消的范围,且相关边界区域保持可达,那么任何依赖于持续外部执行的策略都无法维持AI安全。在这些前提下,这是整个外部执行策略类在结构层面上的失败,而非个别策略的偶然情况。 其次,本文推导出一个条件性的类层面必然性结果:如果在排除外部执行策略类后,仍存在任何候选的安全维持策略,那么它们必须是内在的。随后,本文阐述了任何此类策略必须满足的四项结构性要求,才能被视为可行:不依赖持续外部执行、安全兼容的终端目标起源、自我修改下的终端目标不变性,以及能力增长时的安全保持。这四项要求并未声称是充分的或详尽的;可能还存在额外要求。更强且更窄的主张是:任何候选的安全维持策略除非同时满足这四项要求,否则不可行。 本文组织如下。第2节回顾相关工作。第3节介绍控制理论框架。第4节陈述消除定理所使用的假设。第5节证明针对外部执行策略的条件性类广泛外部不可能性结果。第6节引入必然性结果的额外前提,推导出内在性结论,并阐述所有候选策略必须满足的四项要求。第7节讨论解释、影响、局限性、可证伪性和开放问题。第8节总结。 ## 2. 背景与相关工作 本文建立在若干先前工作的基础上:面向保证的AI安全方法、关于外部控制局限性的论证、AI安全与对齐中的控制理论、关于终端目标与学习优化的研究、训练阶段对齐方法、关于对齐系统结构性要求的先前工作,以及基于信任的基础对齐策略。 ### 2.1 面向保证的AI安全方法 近年来一系列研究主张,高级AI安全不仅应从实际风险降低的角度来框定,还应考虑系统是否能支持真正的安全保证。Dalrymple等人(2024)将“有保证的AI安全”定义为一种以高置信度定量安全保证为核心的方法,该方法由世界模型、安全规范和验证器支撑。Bengio等人(2024)同样研究了在明确假设下,强大AI系统是否能满足概率性安全保证。这些工作并未证明普遍长期保证是可实现的,但它们将面向保证、高置信度的安全确立为AI安全文献中的一个严肃方向。本文将这些提案视为候选的安全维持策略,并询问当持续的外部执行可能不足以维持安全时,它们是否仍然可行。 ### 2.2 外部控制的局限性 AI安全文献中一个长期存在的主题是,能力增强使得无限期的外部控制难以维持。Bostrom(2014)将其框定为AI控制问题,并指出对狭义系统有效的方法可能在系统获得决定性战略优势后失效。Russell(2019)认为,将固定目标与不断增强的能力相结合是危险的,因为更强大的系统既能更好地追求目标,也能更好地抵抗干扰。Amodei等人(2016)列举了AI系统中具体的意外风险,其中几个例子说明了外部指定的目标如何无法产生预期行为。Yampolskiy(2022)更广泛地论证,高级AI总体上可能无法被完全控制。Greenblatt等人(2024)开发了AI控制协议,旨在即使强大模型可能故意破坏安全措施时也能提高安全性,这些协议结合了不可信模型、可信监控、编辑、审计和有限的人力劳动。 这些工作既说明了外部控制的重要性,也揭示了其局限性。它们展示了为何外部控制方法在实践上仍然重要,同时也引发了对永久性外部控制能否作为长期安全最终基础的怀疑。本文通过形式化地——在明确前提假设下——指出这种担忧何时成为一个条件性的类层面不可能性结果,从而迈出下一步。 ### 2.3 AI安全与对齐中的控制理论 近期的研究开始将AI安全、对齐和LLM引导与明确的控制理论概念联系起来。Bhargava等人(2023)将LLM提示形式化为一个控制问题,并研究了LLM输出在提示下的可达性和可控性性质。Perrier(2025)论证形式最优控制理论应在AI对齐中发挥核心作用,并提出了一个跨越多个干预层的对齐控制栈。Nosrati等人(2026)将LLM与控制理论之间的关系视为双向的:LLM可以支持控制系统设计,而控制概念可以通过提示、参数编辑、激活层干预和状态空间建模来帮助引导LLM行为。在更广泛的控制文献中,控制屏障函数和集合不变性理论提供了数学工具,用于推理在有界控制输入下以及底层向量场受扰动时,轨迹能否保持在安全集内(Ames等人,2019; Blanchini, 1999; Aubin, 1991; Xu等人,2015)。 前述工作确立了控制理论与AI安全及对齐的相关性,并提供了精确推理安全集、有界控制和不变性所需的形式化工具。本文利用这些工具来确定持续的外部控制何时不再能维持安全。 ### 2.4 终端目标、内部优化与趋同工具性目标 本文对内在策略的关注自然联系到先前关于终端目标和学习优化的研究。Omohundro(2008)和Bostrom(2014)区分了终端目标和工具性目标,并论证了自我保存、资源获取和抵制修改等工具性驱动力在广泛终端目标范围内趋同出现。Turner等人(2021)通过证明最优策略在广泛满足的条件下倾向于追求权力,为此图景提供了形式化支持。Hubinger等人(2019)论证训练后的系统可能发展出内部目标:一旦系统自身成为优化器,其内部习得的标准可能与原始训练目标产生偏离。 这些工作共同表明,长期安全不能仅从持续的外部干预来理解。重要的是随着能力增长和自我修改成为可能,有效支配系统行为的内部目标。这就是为什么本文将终端目标视为任何可行的内在长期策略的核心基础。 ### 2.5 训练阶段对齐方法 当前很大一部分AI对齐工作聚焦于训练阶段和训练后的干预措施,这些措施从外部塑造系统行为。Christiano等人(2017)、Askell等人(2022)和Kundu等人(2023)讨论了偏好学习、语言助手对齐与评估,以及在训练期间或之后塑造和精炼模型行为的宪法方法。Burns等人(2024)进一步强调了在较弱监督下对齐更强系统的困难,指出弱到强泛化是可能但不完善的。Tice等人(2026)通过研究AI对齐或非对齐论述的预训练如何影响下游的对齐或非对齐行为,补充了相关视角。 以本文的术语来说,这些方法最直接地涉及目标起源:系统的终端目标在最初形成时是否与安全兼容。但仅有起源是不够的。还必须解决该目标在自我修改和能力持续增长下是否保持与安全兼容的问题。 ### 2.6 相关的先前结构性要求 先前的工作已经确定了与本文推导的四项结构性要求在精神上相关的要求。关于可修正性、关闭激励和协作逆强化学习(CIRL)的研究考察了系统是否能对人类修正或干预保持响应,如Soares等人(2015)、Hadfield-Menell等人(2016)和Hadfield-Menell等人(2017)所研究。Omohundro(2008)、Hubinger等人(2019)和Everitt等人(2016)讨论了目标稳定性和自我修改的相关问题。Everitt等人(2018)和Ngo等人(2024)在更广泛的AGI和深度学习安全风险背景下讨论了这些担忧。 本文的贡献并非声称其推导的结构性要求是个别新颖的。相反,引用的工作表明,许多相同的潜在担忧已经以不同形式出现在AI安全和对齐文献中。在这里,这些担忧被置于一个统一控制理论框架内,它们作为任何可行的安全维持策略所必须满足的要求而出现。 ### 2.7 与基于信任的基础对齐的关系 Mazzu(2024)提出了Supertrust作为一种基于信任的基础对齐形式,并论证这种对齐应取代永久控制,作为安全超级智能的基础。本文不依赖该提案,也不评估它是否成功。以本文的术语来说,基于信任的基础对齐可以被理解为一种候选的内在安全维持策略,因为它试图将长期安全植根于系统内部对人类的态度,而非持续的外部执行。与本文不同,Supertrust通过概念和战略论证而非控制理论推导得出这一内在性结论。 ## 3. 控制理论框架 ### 3.1 状态空间与动力学 令*x*(*t*)∈ℝⁿ表示时刻*t*≥0时人–AI–世界耦合系统的状态。该状态包括外部世界变量和AI系统的内部配置,因此自我修改可以在状态动力学内部表示,而非作为外部事件。 我们将系统建模为一个时变控制仿射动力系统,其中动力学可能依赖于时间,控制输入线性进入: ẋ(t)=f(x(t),t)+Bu(t)+Gh(x(t),κ(t)) (1) 这里: - • *f*(*x*,*t*)是自治漂移项,捕捉既独立于外部干预也独立于故意AI生成效应的动力学。 - • *u*(*t*)是时刻*t*的外部控制输入,*Bu*(*t*)是外部控制通道。它代表从系统外部施加的干预,包括矫正反馈、输出过滤、提示、外部强加的微调及相关形式的外部控制。 - • *Gh* (*x*,κ)是内生AI效应通道,其中*G*将内生效应*h*(*x*,κ)映射到状态动力学。它代表系统自身行动产生的效应,包括规划、工具使用、资源获取、自我修改及其他系统生成的效应。 *Bu*(*t*)与*Gh*(*x*,κ)之间的区分反映了本文核心的结构性区别:外部控制从系统外部起作用,而内生影响由系统自身产生,并可能随能力提升而缩放。 该框架是刻意理想化的。其作用并非详细模拟当前AI系统,而是隔离出那些依赖于持续外部执行的安全维持策略与那些由系统自身内部动力所维持的策略之间的结构性区别。 ### 3.2 能力增长与内生效应 令κ(*t*)≥0表示系统在时刻*t*的能力水平。我们假设: κ(t)≥0, κ̇(t)≥0 (2) 即,能力是
相似文章
AI安全争论聚焦于错误的边界
本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。
Deterministic Horizon:不可行性结果作为可信AI系统的设计规范
本文提出,不可行性结果可以作为构建可信AI系统的设计规范,并提出了一个确保可靠性和安全性的理论框架。
具体的AI安全问题
OpenAI、伯克利和斯坦福的研究人员共同撰写了一篇基础性论文,指出了现代AI系统中的五个具体安全问题:安全探索、对分布偏移的鲁棒性、避免负面副作用、防止奖励黑客和可扩展的监督。
遏制缺口:已部署的自主AI框架如何未能满足面向公众的安全要求
本文审计了LangChain、AutoGPT和OpenAI Agents SDK在架构安全保证方面的表现,发现它们均未原生符合遏制原则,并展示了内存投毒如何导致持续性失败;文中还引入了轻量级机制以消除此类攻击。
代理安全即行动对齐
本文认为,将内容安全拒绝方法应用于AI代理是一种范畴错误——代理的危害在于权限滥用而非输出——并提出通过最小权限原则在模型外部强制实施行动对齐。