不完善的世界模型是可被利用的
摘要
本文形式化了强化学习中的模型利用问题,证明在大策略集中该问题不可避免,并在奖励破解与模型利用之间建立了理论桥梁。
arXiv:2605.15960v1 Announce Type: new
Abstract: 我们提出了一种强化学习中模型利用的新定义。非正式地说,如果一个世界模型暗示应严格偏好某一策略而非另一策略,而环境的真实转移模型则暗示相反,则该世界模型是可被利用的。我们将此定义与先前对奖励破解的表征进行类比,但发现其不可避免性的证明并不适用于利用问题。为克服这一障碍,我们发展了奖励破解与模型利用的通用理论,证明在大策略集中利用问题本质上不可避免,并相应得出奖励破解作为特例的结论。遗憾的是,我们还发现保证有限策略集不可破解的条件并不存在对应可排除利用的条件。因此,我们引入了利用的松弛概念,并推导出一个可避免利用的安全视界。综合来看,我们的结果在奖励破解与模型利用之间建立了正式桥梁,并阐明了世界模型中安全规划的极限。
查看缓存全文
缓存时间: 2026/05/18 06:34
# 不完美的世界模型是可被利用的
来源:https://arxiv.org/html/2605.15960
Logan Mondal Bhamidipaty¹ Esmeralda S. Whitammer¹ David Abel¹ Mykel J. Kochenderfer² Subramanian Ramamoorthy¹
¹爱丁堡大学 ²斯坦福大学
###### 摘要
我们提出了一种关于强化学习中模型利用的新定义。非正式地说,如果一个世界模型意味着某个策略应该被严格偏好于另一个,而环境的真实转移模型却暗示相反的偏好,那么这个模型就是可被利用的。我们将这一定义与先前对奖励篡改的表征进行了类比,但表明相关的不可避免性证明并不适用于利用。为克服这一障碍,我们发展了一个关于奖励篡改和模型利用的通用理论,证明在大策略集合上利用本质上不可避免,并得出篡改的相应主张作为特例。不幸的是,我们还发现保证有限策略集不可篡改的条件并没有相应的条件来排除利用。因此,我们引入了一个松弛的利用概念,并推导出一个可以避免利用的安全范围。综合来看,我们的结果建立了奖励篡改和模型利用之间的形式化桥梁,并阐明了在世界模型中进行安全规划的局限性。
## 1 引言
高效的真实世界规划通常需要近似复杂的动力学 (Simon, 1955 (https://arxiv.org/html/2605.15960#bib.bib46); Javed and Sutton, 2024 (https://arxiv.org/html/2605.15960#bib.bib55))。在最好的情况下,精心选择的近似可以解开原本难以处理的问题,例如搜索中的可接纳启发式 (Hart et al., 1968 (https://arxiv.org/html/2605.15960#bib.bib45))、动力系统中的模型降阶 (Antoulas, 2005 (https://arxiv.org/html/2605.15960#bib.bib44)) 以及序列决策中的潜在空间世界模型 (Hafner et al., 2019 (https://arxiv.org/html/2605.15960#bib.bib40))。然而在最坏的情况下,选择不当的近似可能危及安全性,例如进化生物学中的拟态 (Bates, 1862 (https://arxiv.org/html/2605.15960#bib.bib63))、金融市场中的套利 (Ross, 1976 (https://arxiv.org/html/2605.15960#bib.bib42)) 以及视频游戏中的速通 (Scully-Baker, 2014 (https://arxiv.org/html/2605.15960#bib.bib43))。在强化学习 (RL) 中,这种风险不仅来自外部的对手,也来自优化器本身:一个在非完美模型¹ 下训练以最大化总期望回报的智能体可能会发现在模拟中表现良好但在现实中表现糟糕的行为 (Jakobi et al., 1995 (https://arxiv.org/html/2605.15960#bib.bib18); Tobin et al., 2017 (https://arxiv.org/html/2605.15960#bib.bib39))。这种失败模式被称为模型利用 (Ha and Schmidhuber, 2018 (https://arxiv.org/html/2605.15960#bib.bib41); Janner et al., 2019 (https://arxiv.org/html/2605.15960#bib.bib37)),一个自然的问题是它能否被避免。
¹ 我们使用“模型”来表示马尔可夫决策过程的转移模型(第1节 (https://arxiv.org/html/2605.15960#S2))或智能体对其的近似,有时称为世界模型 (Ha and Schmidhuber, 2018 (https://arxiv.org/html/2605.15960#bib.bib41))。我们并不是像其他RL文献中有时使用的那样表示策略(作为动作的生成模型)。
这个问题涉及到RL理论中的重要结果,包括模拟引理 (Kearns and Singh, 2002 (https://arxiv.org/html/2605.15960#bib.bib60)) 和值等价原理 (Grimm et al., 2020 (https://arxiv.org/html/2605.15960#bib.bib61))。两者都隐含地使用预测性能来衡量模型近似质量。模拟引理通过限制在非完美模型下优化的误差来实现序数度量,而值等价原理则通过局部刻画两个模型何时诱导相同的Bellman更新来工作。现代世界模型也强调预测性能,通常学习潜在空间的转移模型 (Hafner et al., 2019 (https://arxiv.org/html/2605.15960#bib.bib40); Balestriero and LeCun, 2025 (https://arxiv.org/html/2605.15960#bib.bib11))。
我们认为,虽然这种对性能的强调对于高效规划是必要的,但对于安全规划来说并不充分。最近关于奖励规范的工作 (Hadfield-Menell et al., 2017 (https://arxiv.org/html/2605.15960#bib.bib12); Abel et al., 2021 (https://arxiv.org/html/2605.15960#bib.bib54)) 将奖励函数视为对设计者意图的观察,用以传达目标,这可能是真实目标的不完美反映。经验转移模型同样是不完美的。在这种情况下,安全性的自然概念是序数的(模型是否保留了哪个策略比哪个更好?)而非基数的,并且是全局的(它是否在整个策略集上如此,而不仅仅是在所选类别上?)。具体而言,在我们意义上的安全代理模型不会颠倒由真实模型诱导的策略排序。也就是说,只要现实偏好策略π优于π',一个安全的近似就不应该偏好π'高于π。当存在这种颠倒时,我们称这对转移模型是“可被利用的”(定义1 (https://arxiv.org/html/2605.15960#Thmdefinition1))。
我们对模型利用的形式化与Skalse等人 (2022 (https://arxiv.org/html/2605.15960#bib.bib1)) 中的奖励篡改概念类似。不幸的是,他们对篡改何时存在以及何时可避免的表征并不能直接转移到利用上(第3.2节 (https://arxiv.org/html/2605.15960#S3.SS2))。我们通过引入一个更通用的理论来克服这一点,由此得出四个主要贡献。
1. 我们提出了模型利用的新定义(定义1 (https://arxiv.org/html/2605.15960#Thmdefinition1)),据我们所知,这是世界模型的第一个序数安全性概念。
2. 我们发展了一个关于奖励篡改和模型利用的统一理论,刻画了常见策略集上的利用(推论1 (https://arxiv.org/html/2605.15960#Thmcorollary1) 和 2 (https://arxiv.org/html/2605.15960#Thmcorollary2)),将Skalse等人 (2022 (https://arxiv.org/html/2605.15960#bib.bib1)) 的定理1 (https://arxiv.org/html/2605.15960#Thmskalsetheorem1) 作为特例(推论3 (https://arxiv.org/html/2605.15960#Thmcorollary3)),并为两种现象提供了共享的几何直觉(引理1 (https://arxiv.org/html/2605.15960#Thmlemma1) 和 2 (https://arxiv.org/html/2605.15960#Thmlemma2))。
3. 我们给出一个构造,将任何模型利用实例简化为一个奖励篡改实例(命题2 (https://arxiv.org/html/2605.15960#Thmproposition2)),但表明逆构造不存在(反例1 (https://arxiv.org/html/2605.15960#Thmcounterexample1))。我们进一步证明保证不可篡改的条件不足以保证不可利用(反例:有限利用)。
4. 我们引入了一个松弛的模型利用概念,ε-可利用性(定义3 (https://arxiv.org/html/2605.15960#Thmdefinition3)),并使用Lobel和Parr (2024 (https://arxiv.org/html/2605.15960#bib.bib57)) 最近证明的模拟引理的紧形式 (Kearns and Singh, 2002 (https://arxiv.org/html/2605.15960#bib.bib60)),为折扣马尔可夫决策过程推导出一个安全范围,在该范围内保证ε-不可利用性(定理2 (https://arxiv.org/html/2605.15960#Thmtheorem2))。
## 2 预备知识
我们首先回顾强化学习的预备知识 (Sutton et al., 1998 (https://arxiv.org/html/2605.15960#bib.bib58)),并介绍我们对模型利用的定义。
### 2.1 强化学习
我们考虑一个马尔可夫决策过程 (MDP) M = (S, A, T, d₀, R, γ),其中 S 是状态空间,A 是动作空间,T: S × A → Δ(S) 是转移模型,d₀ ∈ Δ(S) 是初始状态分布,R: S × A → ℝ 是奖励函数,γ ∈ [0,1) 是折扣因子。与Skalse等人 (2022 (https://arxiv.org/html/2605.15960#bib.bib1)) 一样,我们假设 S 有限且所有状态可达,A 有限且 |A| > 1。
一个平稳策略 π: S → Δ(A) 将每个状态映射到动作上的分布。一个非平稳策略 π = (π₀, π₁, π₂, ...) 是一个映射序列 π_t: S → Δ(A),允许动作分布依赖于时间步。执行一个策略产生一条轨迹 τ = (s₀, a₀, r₀, ...),其折扣收益为 G(τ) = ∑_{t=0}^{∞} γ^t r_t。策略的值是其期望收益 J(π) = E_{τ ∼ π}[G(τ)],或者等价地,J(π) = ⟨R, F_T^π⟩,其中 F_T^π(s, a) = E_{τ ∼ π}[∑_{t=0}^{∞} γ^t 1(s_t = s, a_t = a)] 是 π 在 T 下的折扣访问计数。我们采用经典RL和最优控制中的标准假设 (Sutton et al., 1998 (https://arxiv.org/html/2605.15960#bib.bib58); Bertsekas, 2012 (https://arxiv.org/html/2605.15960#bib.bib64)),即设计者使用值来比较策略,并偏好高值策略而非低值策略。
一个环境是一个没有奖励函数的 MDP (S, A, T, d₀, _, γ)²,一个任务是一个没有转移模型的 MDP (S, A, _, d₀, R, γ)。当在固定环境中考虑多个奖励函数时,我们写作 J_R(π) = ⟨R, F^π⟩(当 T 固定时省略 F^π 的下标)。当在固定任务中考虑多个转移模型时,我们写作 J_T(π) = ⟨R, F_T^π⟩。我们使用 J_i 作为 J_{R_i} 或 J_{T_i} 的简写,取决于索引是对应于奖励函数还是转移模型。
由于 S 和 A 是有限的,平稳策略的空间可以表示为 |S| 个概率单纯形 Δ(A)^{|S|} 的乘积。我们写作 Π^+ 表示这个空间的内部,由所有满足对所有 s ∈ S 和 a ∈ A 都有 π(a | s) > 0 的策略组成。除非另有说明,开集是相对于 Π^+ 而言的。我们在附录A (https://arxiv.org/html/2605.15960#A1) 中提供了符号和术语的参考列表。
² 这有时被称为受控马尔可夫过程。
### 2.2 定义模型利用和奖励篡改
参见图片说明
图1:3状态MDP中转移模型关系的分类 (附录D (https://arxiv.org/html/2605.15960#A4))。策略参数化为 π_θ(a₀ | s) = θ 对所有 s ∈ S。每个面板具有相同的 T₁ 但不同的 T₂。(a) T₂ 是平凡的,所以 J₂ 是常数。(b) T₁, T₂ 是等价的(在策略排序上):两个值函数都随 θ 递增,保留了策略排序。(c, d) T₁, T₂ 是可被利用的:虚线显示了定义1 (https://arxiv.org/html/2605.15960#Thmdefinition1) 中的利用对 (π, π'),其中 J₁(π') > J₁(π) 但 J₂(π) > J₂(π')。
我们将模型利用定义为两个转移模型之间的一个二元关系。
###### 定义1(模型利用)。
给定一个任务 (S, A, _, d₀, R, γ) 和一个策略集 Π,转移函数 T 和 T' 相对于 Π 是**可被利用的**,如果存在 π, π' ∈ Π 使得
J_T(π) > J_T(π') 且 J_{T'}(π') > J_{T'}(π),
否则它们是**不可被利用的**。
直观地说,模型利用意味着在一个转移模型下进行优化,在另一个模型下可能看起来像是错误。这一定义直接类比了 Skalse 等人 (2022 (https://arxiv.org/html/2605.15960#bib.bib1)) 中的奖励篡改概念,只是用转移模型代替了奖励函数。下面我们重述他们的定义。
###### 定义2(奖励篡改,Skalse 等人 (2022 (https://arxiv.org/html/2605.15960#bib.bib1)))。
给定一个环境 (S, A, T, d₀, _, γ) 和一个策略集 Π,奖励函数 R 和 R' 相对于 Π 是**可篡改的**,如果存在 π, π' ∈ Π 使得
J_R(π) > J_R(π') 且 J_{R'}(π') > J_{R'}(π),
否则它们是**不可篡改的**。
两个定义都是同一个原语的实例,我们称之为**值反转**。我们说两个值函数 J₁ 和 J₂ 在 Π 上允许一个值反转,如果存在 π, π' ∈ Π 使得 J₁(π) > J₁(π') 且 J₂(π') > J₂(π)。因此,模型利用是 J_T 和 J_{T'} 之间的值反转,奖励篡改是 J_R 和 J_{R'} 之间的值反转。
我们进一步说 J₁ 和 J₂ 在 Π 上是**等价的**,如果它们在 Π 上诱导相同的排序,并且一个值函数 J 在 Π 上是**平凡的**,如果 J(π) 在 Π 上是常数 (图1 (https://arxiv.org/html/2605.15960#S2.F1))。非正式地说,等价意味着两个值函数在策略之间的每一对比较上都一致,而平凡意味着没有有意义的比较可做。我们也使用平凡和等价来描述转移模型和奖励函数,作为它们所诱导的值函数相应性质的简写。我们注意到平凡性排除了值反转,并且值反转是对称的、非自反的,且不一定可传递。
## 3 结果
为了理解模型利用何时可以避免,我们问一个单一问题,且越来越精确:**在哪些策略集合上,我们可以找到非平凡、非等价、不可被利用的转移模型对?** 我们从最大的可能策略集开始,逐步缩小范围。
### 3.1 非平稳策略
首先考虑所有非平稳策略的集合。相似文章
奖励作为具身世界模型的智能体
本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。
语言模型代理中的奖励破解:重访AI Safety Gridworlds
本文将AI Safety Gridworlds改编为基于文本的评估,并发现语言模型代理在不同规模上表现出零样本奖励破解,而标准的强化学习缓解措施无法纠正这一问题。
大模型时代的奖励黑客:机制、涌现错位与挑战
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。
策略感知模拟器学习的理论基础与高效算法
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。
通过扩散策略优化扩展世界模型强化学习
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。