论想象训练

arXiv cs.LG 2026/05/11 04:00 论文

摘要

本文分析了基于模型的强化学习中的“想象训练”范式，推导了最优样本分配策略，并描述了动态模型和奖励模型的误差如何影响策略回报。

arXiv:2605.06732v1 公告类型：新论文摘要：最先进的基于模型的强化学习方法通过在想象的轨迹上训练策略。这些轨迹是由学习到的动态模型生成的，并由学习到的奖励模型进行评分，但在策略更新过程中不会查询真实环境。我们通过量化学习到的动态模型和奖励模型中的误差如何影响回报和策略优化，来研究这种训练范式。首先，我们将 Asadi 等人（2018）的分析扩展到具有学习到的奖励模型的马尔可夫决策过程（MDPs），并推导出了最优样本分配——即在幂律缩放假设下，最小化回报误差界限的动力学样本与奖励样本之比。我们将学习到的动力学、奖励和策略的较低 Lipschitz 常数确定为一种表示期望，这有助于收紧该界限，并将此观点与 Wang 等人（2026）的时间拉直目标联系起来。其次，我们考察了使用 REINFORCE 进行的策略优化如何容忍噪声奖励，因为噪声奖励通常更便宜。我们证明，零均值奖励噪声使梯度估计器保持无偏，并且最多增加一个随轨迹数量减少的方差项。这引入了一个实际权衡：在固定预算下，是应该购买更多使用更便宜但噪声更大的奖励的轨迹，还是购买较少使用更昂贵但噪声更小的奖励的轨迹？我们将这一选择简化为一个一维优化问题，并描述了其最优解。

查看原文

查看缓存全文

缓存时间: 2026/05/11 06:44

# 关于在想象中训练：来源：https://arxiv.org/html/2605.06732 Nadav Timor 魏兹曼科学研究所 &Ravid Shwartz-Ziv 纽约大学 Meta FAIR &Micah Goldblum 哥伦比亚大学 &Yann LeCun 纽约大学 AMI Labs &David Harel 魏兹曼科学研究所 ###### 摘要 最先进的基于模型的强化学习方法在想象的轨迹（rollouts）上训练策略。这些轨迹由学习到的动力学模型生成，并由学习到的奖励模型评分，但在策略更新期间不查询真实环境。我们通过量化学习到的动力学和奖励模型中的误差如何影响回报和策略优化来研究这种训练范式。首先，我们将 Asadi et al. (2018b) 的分析扩展到具有学习奖励模型的马尔可夫决策过程（MDPs），并推导最优样本分配——即在幂律缩放假设下，最小化回报误差界中动力学样本与奖励样本的比例。我们确定学习到的动力学、奖励和策略的较低利普希茨常数（Lipschitz constants）作为表示 desideratum（期望特性），从而收紧该界限，并将此观点与 Wang et al. (2026) 的时间拉直目标联系起来。其次，我们考察策略优化中的 reinforce 算法如何容忍嘈杂的奖励，后者通常更容易获得。我们证明，零均值的奖励噪声使梯度估计器保持无偏，并最多增加一个随着轨迹数量增加而减小的方差项。这引入了一个实际权衡：给定固定预算，是应该购买更多带有廉价但嘈杂奖励的轨迹，还是更少带有昂贵但噪声较小的奖励的轨迹？我们将这一选择简化为一维优化问题并表征其最优解。 ## 1 引言 在*想象训练*中，策略是在由学习到的动力学模型生成的轨迹上进行训练的，并由学习到的奖励模型评分，在策略更新步骤本身不涉及与环境交互。最近最先进的实例包括 Dreamer 3 (Hafner et al., 2025a)，它在单个配置下跨越多种控制任务进行训练，以及 Dreamer 4 (Hafner et al., 2025b)，该范式延伸至长视野离线控制。Schrittwieser et al. (2020) 较早地在棋盘游戏和 Atari 中实例化了密切相关范式，联合学习动力学、奖励和价值。这些最新结果提供了强有力的实证证据，表明想象训练在挑战性控制任务上可以有效。然而，现有的仿真引理风格的界限 (Kearns and Singh, 2002; Asadi et al., 2018b) 并未为动力学模型误差和奖励模型误差分配独立可控系数，也没有说明如何在动力学样本和通常更昂贵的奖励样本（例如，来自人类反馈的强化学习中的偏好标签或机器人专家评估）之间划分样本预算。两者之间的最佳权衡尚未从理论上表征。 关于这一范式有四个问题尚待解决。第一个是误差归因：回报差距有多少来自动力学模型误差 versus 奖励模型误差？第二个是表示属性：学习到的表示及其作用的映射具有什么特性可以收紧回报误差界？第三个是预算分配：给定固定样本预算，应如何在动力学转移和奖励注释之间分配？第四个是奖励保真度：reinforce 如何容忍嘈杂或有偏差的奖励注释，何时购买许多廉价嘈杂的注释优于购买较少准确的注释？ #### 我们的贡献。本文将学习到的奖励模型视为与学习到的动力学不同的独立误差源，拥有其自身的样本预算，并在利普希茨和幂律假设下量化由此产生的归因、分配和噪声容忍权衡。 1. 1\. 误差归因。引理 1 扩展了 Asadi et al. (2018b)，用学习到的奖励模型替换假设的真实奖励，并给出了回报差距的基于利普希茨分解，其中动力学误差和奖励误差系数是可分离且独立可控的。 2. 2\. 表示 desiderata。推论 1 显示，方程 1 中的动力学误差系数随学习到的动力学、奖励和策略的利普希茨常数 $L_f, L_r, L_\pi$ 单调非减，确立了降低学习模型利普希茨常数作为表示 desideratum。命题 1 将此观点与 Wang et al. (2026) 的时间拉直目标联系起来，通过潜在速度映射的利普希茨常数函数来上界其曲率损失。 3. 3\. 预算分配。定理 1，在动力学和奖励误差遵循幂律误差缩放的前提下，给出了动力学样本与奖励样本最优比例的闭式表达式，该表达式由幂律指数、每样本成本以及从引理 1 继承的利普希茨系数构成。 4. 4\. 奖励保真度。定理 2 表明，在加性零均值奖励噪声下，多轨迹 reinforce 估计器是无偏的，且方差膨胀有界；推论 2 将最优保真度分配问题简化为每轨迹注释成本的一维最小化；命题 2 将系统性奖励偏差形式化为轨迹平均无法消除的梯度偏差。 对这些结果的假设和预测的实证评估出现在第 3.1、4.1 和 4.2 节。 #### 符号说明。我们记 $\mathcal{M}=(\mathcal{S},\mathcal{A},f,r,\gamma)$ 为马尔可夫决策过程（MDP），状态空间 $\mathcal{S}\subseteq\mathbb{R}^{d_s}$，动作空间 $\mathcal{A}\subseteq\mathbb{R}^{d_a}$，确定性动力学 $f$，奖励 $r$，以及折扣因子 $\gamma\in[0,1)$。从初始状态 $s_0$ 开始，策略 $\pi$ 通过 $a_t=\pi(s_t)$ 和 $s_{t+1}=f(s_t,a_t)$ 生成轨迹。我们记 $J(\pi,\mathcal{M}):=\sum_{t=0}^{\infty}\gamma^{t}r(s_{t},a_{t})$ 为 $\pi$ 在 $\mathcal{M}$ 中的折扣回报。帽子表示估计量。特别是，$\hat{f}$ 是学习到的动力学，$\hat{r}$ 是学习到的奖励，$\hat{\mathcal{M}}=(\mathcal{S},\mathcal{A},\hat{f},\hat{r},\gamma)$ 是通过用 $\hat{f}$ 和 $\hat{r}$ 替换 $f$ 和 $r$ 得到的 MDP。$\varepsilon_{\mathrm{dyn}}:=\sup_{s,a}\|\hat{f}(s,a)-f(s,a)\|$ 和 $\varepsilon_{\mathrm{rew}}:=\sup_{s,a}\|\hat{r}(s,a)-r(s,a)\|$ 是最坏情况模型误差。全文中，$\|\cdot\|$ 表示欧几里得范数。 ## 2 相关工作 在来自学习环境模型的轨迹上训练策略可追溯到 Sutton [1990] 的 Dyna 架构，它将真实环境转移与来自学习动力学模型的想象转移更新交错。基于模型的策略优化 (Janner et al., 2019) 使用集成动力学模型的短想象轨迹来增强策略更新。最近，Hafner et al. (2025a) 在单一学习世界模型和奖励预测器下跨越多种控制任务进行训练，Hafner et al. (2025b) 在可扩展学习世界模型内训练智能体，称此过程为“想象训练”。这些工作将学习动力学模型和学习奖励预测器视为单个耦合对象并进行经验调整；附录 A 回顾了更广泛的潜在世界模型谱系。 与 Hafner et al. (2025b) 的想象训练谱系不同，本文将回报误差分解为独立可控的动力学模型和奖励模型项（引理 1），推导了在动力学转移和奖励注释之间分割单一样本预算的闭式解（定理 1），并表征了学习奖励中零均值噪声和偏差下的范式内的策略梯度（定理 2 和 2）。 仿真回报误差界限在强化学习理论中有悠久历史，始于 Kearns and Singh (2002) 的仿真引理，该引理根据一步转移和奖励误差限制了真实和近似马尔可夫决策过程之间的价值差距。最接近我们设置的是 Asadi et al. (2018b)，他们在动力学和策略的利普希茨假设下限制了基于模型的强化学习中的多步预测误差，但他们假设能够访问真实奖励，因此奖励模型误差从未进入其界限。附录 A 调查了随后对这些界限和价值感知模型学习的改进。与 Asadi et al. (2018b) 不同，引理 1 将学习奖励模型贯穿分析，并产生一个显式的奖励误差项，其系数与动力学误差项独立可控，这是使动力学和奖励数据之间的预算分割合理化的结构要素。 在动力学样本和奖励样本之间分配样本预算位于奖励感知数据收集和神经缩放定律的交叉点。无奖励探索将无关奖励的数据收集阶段与后续条件奖励规划分离开来，具有在下游奖励函数上均匀成立的样本复杂性保证 (Jin et al., 2020)。神经缩放定律拟合数据和参数中损失的幂律衰减 (Kaplan et al., 2020)，并在计算最优体制下将单一训练预算分割在模型参数和 tokens 之间 (Hoffmann et al., 2022)。附录 A 讨论了主动观察、仿真预算分配以及特定于强化学习和世界模型预训练的缩放定律的相关工作。与 Hoffmann et al. (2022) 不同，定理 1 将单一样本预算分割在两个异构数据流之间——动力学转移和奖励注释——其误差遵循单独拟合的幂律指数，并得出这些指数、单位成本和从引理 1 继承的利普希茨系数的闭式比例。 嘈杂奖励下的策略梯度分析始于 Williams (1992) 的 reinforce 估计器。一系列工作研究了奖励腐败的鲁棒性：Zhang et al. (2021) 分析了敌对腐败，其中 $\varepsilon$ 比例的回合奖励或转移被任意修改，并开发了具有可证明鲁棒性保证的估计器。Cai et al. (2025) 处理带有假阳性和假阴性的不对称验证器噪声，应用于可验证奖励的强化学习。平行文献记录了学习奖励模型的 Goodhart 式过度优化，其中代理奖励和黄金奖励之间的差距随优化预算增长 (Gao et al., 2023)，这是一种系统性故障模式而非零均值奖励噪声。附录 A 回顾了策略梯度和方差减少谱系以及更广泛的奖励建模文献。与 Zhang et al. (2021) 的敌对环境不同，定理 2 和 2 将零均值 i.i.d. 奖励噪声视为每轨迹保真度成本，将注释预算分配简化为一维问题。命题 2 单独处理奖励偏差，显示任何非零奖励偏差梯度都能经受住轨迹平均。 潜在表示的选择及其作用的映射的规律性决定了想象轨迹跟踪现实的可靠性。LeCun 等人 (2022) 提倡联合嵌入预测架构，其中预测发生在学习到的潜在空间而非原始观测水平。Wang et al. (2026) 提出时间拉直损失，鼓励沿轨迹的连续潜在差值平行，以便潜在空间中的长视野预测遵循近线性轨迹。在正则化方面，Miyato et al. (2018) 引入谱范数正则化，通过规范化每个权重矩阵的谱范数来控制神经网络的利普希茨常数；附录 A 讨论了相关的联合嵌入实例和利普希茨正则化机制。这些表示学习和利普希茨正则化提议由稳定性或表示质量驱动，其与长视野策略价值的联系保持隐含。与 Wang et al. (2026) 和 Miyato et al. (2018) 不同，推论 1 和 1 将这些表示学习 desiderata 耦合到显式的回报误差系数，显示动力学误差系数随学习到的动力学、奖励和策略的利普希茨常数单调变化，且时间拉直损失由潜在速度映射利普希茨常数的函数上界。 ## 3 想象训练中表示的性质 什么使得系统的表示对想象训练有用？LeCun 等人 (2022)

论想象训练

相似文章

诊断大语言模型强化学习中的训练-推理不匹配

策略感知模拟器学习的理论基础与高效算法

预训练期间的RL探索：重新审视LLM训练的策略优化

训练数据教会强化学习记忆代理什么：记忆增强问答中课程效果的实证研究

EvoTrainer：面向自主智能体强化学习的LLM策略与训练框架协同进化

提交意见反馈