面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放

arXiv cs.CL 论文

摘要

# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放 来源:[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918) Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1 1 阿卜杜拉国王科技大学 (KAUST) 2 中国科学院自动化研究所 (CASIA) 3 伦敦大学学院计算机科学系人工智能中心 4 中关村人工智能研究院 weiyu\.

arXiv:2604.16918v1 公告类型:新文章 摘要:强化学习(RL)在大型语言模型(LLMs)和视觉-语言模型(VLMs)的后训练阶段取得了令人瞩目的成功,其中在线策略算法(如PPO、GRPO和REINFORCE++)已成为主流范式。然而,这些方法在一次梯度更新后便会丢弃所有收集的轨迹,导致样本效率低下;对于需要多轮环境交互且成本高昂的智能体任务而言,这种资源浪费尤为严重。尽管经验回放通过允许智能体重用历史轨迹并优先采样信息丰富的样本,显著提升了经典强化学习的样本效率,但直接将优先经验回放(PER)应用于大语言模型则会失效。十亿参数规模的模型其策略演进极为迅速,导致历史存储的优先级迅速过时,使得那些早已丧失信息价值的高优先级旧轨迹在长时间内持续主导采样过程。为此,我们提出了鲜度感知优先经验回放(Freshness-Aware PER)。该方法基于有效样本规模分析,通过引入乘性指数年龄衰减机制来修正任意基于PER的优先级,从而有效解决优先级过时问题。据我们所知,Freshness-Aware PER 是首个成功将PER应用于大语言模型/视觉语言模型强化学习的研究工作。我们在8个涉及多步智能体操作、推理及数学竞赛的任务中,对0.5B、3B和7B参数的模型进行了评估。实验表明,Freshness-Aware PER 的性能显著优于各类在线策略基线方法,在NQ Search任务上提升46%,在Sokoban任务上提升367%,在VLM FrozenLake任务上提升133%;而缺乏年龄衰减的标准PER则始终导致性能下滑。我们的开源代码发布于:https://github.com/Vision-CAIR/Freshness-Aware-PER。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:05

# Large Language Model 与 Vision-Language Model 强化学习中的新鲜度感知优先级经验回放 来源:https://arxiv.org/html/2604.16918 Weiyu Ma¹, Yongcheng Zeng², Yan Song³, Xinyu Cui², Jian Zhao⁴, Xuhui Liu¹, Mohamed Elhoseiny¹ ¹阿卜杜拉国王科技大学 (KAUST) ²中国科学院自动化研究所 (CASIA) ³伦敦大学学院计算机科学与人工智能中心 ⁴中关村人工智能研究院 [email protected] | [email protected] ###### 摘要 强化学习 (RL) 在大型语言模型 (LLMs) 和视觉-语言模型 (VLMs) 的后训练阶段取得了令人瞩目的成功,其中 PPO、GRPO 和 REINFORCE++ 等在线算法已成为主导范式。然而,这些方法在一次梯度更新后就会丢弃所有采集的轨迹,导致样本效率低下,尤其在多轮环境交互成本高昂的智能体任务中显得尤为浪费。虽然经验回放通过允许智能体重用历史轨迹并优先采样信息丰富的样本,在经典强化学习中提升了样本效率,但直接将优先级经验回放 (PER) 应用于 LLMs 却会失效。数十亿参数模型的政策演变速度极快,会导致存储的优先级迅速过时,使得高优先级的旧轨迹在其已变得缺乏信息甚至产生负面影响后,仍长期主导采样过程。我们提出了 FreshPER,该方法基于有效样本量 (ESS) 分析引入乘性指数年龄衰减机制,以解决任何 PER 基础优先级面临的*优先级陈旧*问题。据我们所知,FreshPER 是首个成功将 PER 应用于 LLM/VLM 强化学习的工作。我们在八个多步智能体、推理和数学竞赛任务上,使用 0.5B、3B 和 7B 模型进行了评估。FreshPER 显著优于在线基线方法,在 NQ Search 上提升 46%,在 Sokoban 上提升 367%,在 VLM FrozenLake 上提升 133%;而未带年龄衰减的标准 PER 则持续导致性能下降。我们的代码已在 https://github.com/Vision-CAIR/Freshness-Aware-PER 开源。 ## 1 引言 Refer to captionFigure 1: FreshPER 训练流程概览。顶部:在线循环——行为策略 $\pi_\mu$(vLLM 推理)与智能体环境交互,当前策略 $\pi_\theta$(DeepSpeed 训练)利用新鲜数据进行策略梯度更新。底部:离线循环——带有行为对数概率和奖励的轨迹被存储在 CPU 控制器上的回放缓冲区中。一个异步线程通过 $p_i \leftarrow p_i^{\text{base}} \cdot \exp(-\Delta_i/\tau)$ 刷新优先级,并采样优先级批次进行额外的离线训练。强化学习 (RL) 已成为改变大型语言模型 (LLMs) 的关键技术。RLHF (Ouyang et al., 2022) (https://arxiv.org/html/2604.16918#bib.bib15) 在生成 ChatGPT 的过程中发挥了核心作用,证明了基于 RL 的后训练能显著提升 LLM 的可用性和安全性。最近,OpenAI o1 (OpenAI, 2024) (https://arxiv.org/html/2604.16918#bib.bib74) 和 DeepSeek-R1 (DeepSeek-AI, 2025) (https://arxiv.org/html/2604.16918#bib.bib21) 展示了 RL 能够解锁高级推理能力,在数学和编程基准测试中达到专家级水平。这些成功均依赖于在线策略梯度算法——PPO (Schulman et al., 2017) (https://arxiv.org/html/2604.16918#bib.bib7)、GRPO (Shao et al., 2024) (https://arxiv.org/html/2604.16918#bib.bib18) 和 REINFORCE++ (Hu et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib23)——它们至今仍是主流的训练范式。一个尤为激动人心的前沿领域是*智能体强化学习*,即 LLMs 和 VLMs 与环境进行多轮交互:网络搜索 (Jin et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib72)、执行代码 (Wei et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib60)、调用工具 (Schick et al., 2023) (https://arxiv.org/html/2604.16918#bib.bib53) 以及导航视觉环境 (Driess et al., 2023) (https://arxiv.org/html/2604.16918#bib.bib54)。与单轮偏好对齐不同,智能体 RL 要求模型采取连续动作并从真实环境中获取反馈,使 LLM 训练更加贴近经典强化学习范式。这一转变也引入了一个关键的新挑战:*环境交互代价极其高昂*。考虑在一个检索增强问答任务上使用 REINFORCE++ 训练搜索代理 (Jin et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib72)。每个提示词会生成多条 rollout 轨迹(例如每个提示词 8 条),而每条轨迹最多包含 5 次搜索回合。对于 128 个提示词的批次,每次迭代将产生超过 5,000 次检索调用,每次调用都需要在专用硬件上执行嵌入计算和向量索引查找。仅 rollout 阶段就占用了训练时间的大部分,通常超过总时钟成本的 70% (Yu et al., 2025a) (https://arxiv.org/html/2604.16918#bib.bib75)。然而,在线算法仅将这些昂贵的轨迹用于单次梯度更新,随后便将其彻底丢弃(图 2) (https://arxiv.org/html/2604.16918#S1.F2)。Refer to captionFigure 2: 在线 LLM RL 算法(PPO、REINFORCE++、GRPO)每条轨迹仅用于一次梯度更新后即被丢弃(⊗),无论其潜在的学习价值如何。在经典 RL 中,*经验回放* (Lin, 1992) (https://arxiv.org/html/2604.16918#bib.bib1; Mnih et al., 2015) (https://arxiv.org/html/2604.16918#bib.bib2) 及其优先级变体 PER (Schaul et al., 2016) (https://arxiv.org/html/2604.16918#bib.bib3) 是解决该问题的标准方案,使智能体能复用过往经验并优先采样最具信息量的样本。然而,直接将 PER 应用于 LLM RL 会失败。核心问题在于*优先级陈旧*:由于在长 Token 序列上进行大幅梯度更新,LLM 策略演化极快,导致旧的的高优先级轨迹在其失去信息量甚至产生负面影响后,仍长期主导采样过程。标准 PER 缺乏应对这种时间退化特性的机制。我们提出 FreshPER,通过为任意 PER 基础优先级增加乘性指数年龄衰减来解决优先级陈旧问题。该机制直接源于有效样本量 (ESS) 随策略偏离行为策略而呈指数衰减的特性。这一简单机制确保即使优先级最高的旧轨迹,最终也会因新鲜度的考量而被降低采样权重,从而排在中等优先级的新轨迹之后,同时保留了标准 PER 由信息量驱动的采样特性。本文的主要贡献总结如下: - • 据我们所知,我们是首个成功将 PER 应用于 LLM/VLM RL 的研究。我们识别出*优先级陈旧*是关键失效模式,并提出基于重要性采样理论的新鲜度感知年龄衰减机制。 - • 我们实现了一套完整的基于轨迹级回放 (trajectory-level replay) 的离线训练流水线,并将其集成到 ROLL 框架 (Wang et al., 2025a) (https://arxiv.org/html/2604.16918#bib.bib67) 中。 - • 我们在八个环境中使用 0.5B、3B 和 7B 模型演示了稳定的性能提升,在 NQ Search、Sokoban 和 VLM FrozenLake 上分别取得 +46%、+367% 和 +133% 的提升,而未带年龄衰减的标准 PER 则持续导致性能衰退。 ## 2 相关工作 强化学习已成为 LLMs 和 VLMs 后训练的核心技术,涵盖偏好对齐 (Ouyang et al., 2022) (https://arxiv.org/html/2604.16918#bib.bib15)、推理 (DeepSeek-AI, 2025) (https://arxiv.org/html/2604.16918#bib.bib21; Shao et al., 2024) (https://arxiv.org/html/2604.16918#bib.bib18)、智能体任务 (Yao et al., 2022) (https://arxiv.org/html/2604.16918#bib.bib51; Jin et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib72; Wang et al., 2025b) (https://arxiv.org/html/2604.16918#bib.bib57) 以及视觉推理 (Huang et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib62; Shen et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib63) 等领域。ROLL (Wang et al., 2025a) (https://arxiv.org/html/2604.16918#bib.bib67)、veRL (Shen et al., 2024) (https://arxiv.org/html/2604.16918#bib.bib68) 和 OpenRLHF (Hu et al., 2024) (https://arxiv.org/html/2604.16918#bib.bib69) 等分布式训练框架为扩展这些方法提供了基础设施。以下回顾与我们工作最相关的三个方向。 #### LLM 的在线与离线 RL。在线 (on-policy) 方法主宰着 LLM 强化学习。PPO (Schulman et al., 2017) (https://arxiv.org/html/2604.16918#bib.bib7) 仍是 RLHF (Ouyang et al., 2022) (https://arxiv.org/html/2604.16918#bib.bib15) 的主力军;GRPO (Shao et al., 2024) (https://arxiv.org/html/2604.16918#bib.bib18) 通过移除 Critic 使其更简化;DAPO (Yu et al., 2025b) (https://arxiv.org/html/2604.16918#bib.bib22)、REINFORCE++ (Hu et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib23) 和 Dr. GRPO (Liu et al., 2025a) (https://arxiv.org/html/2604.16918#bib.bib24) 进一步优化了策略梯度估计器。在离线方面,DPO (Rafailov et al., 2023) (https://arxiv.org/html/2604.16918#bib.bib17) 及其迭代变体 (Dong et al., 2024) (https://arxiv.org/html/2604.16918#bib.bib25) 直接从偏好数据中进行优化,无需环境交互。在线方法的共同局限在于轨迹在一次梯度更新后就会被丢弃,而离线方法则完全放弃了交互。 #### LLM 的离线 RL。中间路线是*离线 (off-policy)* 训练,它复用历史轨迹。异步 RLHF (Noukhovitch et al., 2024) (https://arxiv.org/html/2604.16918#bib.bib36) 和 AReaL (Fu et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib33) 通过均匀回放解耦了生成与训练。这引入了数据陈旧性问题,促使研究转向通过重要性权重控制来提升离线稳定性 (Roux et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib37; Zheng et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib38; Xi et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib39; Luo et al., 2026) (https://arxiv.org/html/2604.16918#bib.bib40)。在数据复用方面,RLEP (Zhang et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib43) 回放正确轨迹,DOTS (Sun et al., 2025) (https://arxiv.org/html/2604.16918#bib.bib44) 结合难度目标选择与回放,LoRR (Liu et al., 2025b) (https://arxiv.org/html/2604.16918#bib.bib46) 通过参数重置实现高回放比。最近,Fatemi (Fatemii et al., 2026) (https://arxiv.org/html/2604.16918#bib.bib42) 提出了面向问题级别的 RL 后训练优先级调度,但明确指出过渡级别 (transition-level) 的 PER “不适用于序列模型”,转而使用基于成功率的课程调度。相比之下,我们证明当加入新鲜度感知年龄衰减时,轨迹级别 (trajectory-level) 的 PER *可以* 在 LLM RL 中取得成功。在所有现有方法中,尚未有研究采用同时兼顾样本信息量和时间新鲜度的优先级采样机制。 #### 经典 RL 中的经验回放。经验回放 (Lin, 1992) (https://arxiv.org/html/2604.16918#bib.bib1) 由 DQN (Mnih et al., 2015) (https://arxiv.org/html/2604.16918#bib.bib2) 普及,用于存储过去的转换以供复用。PER (Schaul et al., 2016) (https://arxiv.org/html/2604.16918#bib.bib3) 根据 TD 误差分配优先级,使“出人意料”的转换能被更频繁地回放,并已扩展到分布式设置 (Horgan et al., 2018) (https://arxiv.org/html/2604.16918#bib.bib9) 和高回放比场景 (D'Oro et al., 2023) (https://arxiv.org/html/2604.16918#bib.bib13; Schwarzer et al., 2023) (https://arxiv.org/html/2604.16918#bib.bib14; Fedus et al., 2020) (https://arxiv.org/html/2604.16918#bib.bib5)。与我们衰减机制最相关的是 FPER (Ma et al., 2022) (https://arxiv.org/html/2604.16918#bib.bib71),它根据*回放次数* 对优先级进行折减。相比之下,我们的年龄衰减以*梯度步数* 为单位计量,并直接根植于策略发散导致的 ESS 指数衰减特性(第 3.3 节) (https://arxiv.org/html/2604.16918#S3.SS3)。这些技术在固定维度的状态-动作空间中已十分成熟,但尚未适配到 LLM 场景,因为 LLM 的轨迹是变长 token 序列,且策略漂移速度快得多。尽管近期出现了面向问题级别的调度尝试 (Fatemii et al., 2026) (https://arxiv.org/html/2604.16918#bib.bib42),但尚无 prior work 成功将轨迹级 PER 应用于 LLM 训练。FreshPER 通过结合信息驱动采样与基于 ESS 分析的显式时间衰减,填补了这一空白。 ## 3 方法:FreshPER ### 3.1 问题形式化 我们将 LLM 强化学习建模为一个多轮马尔可夫决策过程 (MDP) $(\mathcal{S}, \mathcal{A}, T, R, \gamma)$。在第 $t$ 轮,状态 $s_t \in \mathcal{S}$ 是完整的对话历史,由初始提示词拼接所有先前的助手回复和环境观测组成。动作 $a_t \in \mathcal{A}$ 是当前轮次生成的助手回复。接收到 $a_t$ 后,环境返回观测 $o_t \in \mathcal{O}$。转移函数 $T: \mathcal{S} \times \mathcal{A} \times \mathcal{O} \rightarrow \mathcal{S}$ 是确定性的,定义为 $s_{t+1} = s_t \oplus a_t \oplus o_t$,其中 $\oplus$ 表示序列拼接。奖励函数 $R: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$ 为每个状态-动作对分配标量奖励。Episode 在最多数 $H$ 轮后终止,我们设 $\gamma=1$,对应无折扣的回合回报。给定参数化策略 $\pi_\theta$,目标是最大化期望折扣回报: $$ \max_{\theta} \mathbb{E}_{\pi_\theta}\left[\sum_{t} \gamma^{t} r_{t}\right] = \max_{\theta} \mathbb{E}_{\pi_\theta}\left[\sum_{t} r_{t}\right]. \quad (1) $$ 策略梯度方法通过裁剪重要性比率 $\rho = \pi_\theta(a|s) / \pi_{\mathrm{old}}(a|s)$ 来优化此目标,其中 $\pi_{\mathrm{old}}$ 表示更新前的当前策略。据此,我们定义状态价值函数 $V_\pi(s_t) = \mathbb{E}_\pi[\sum_{k=0}^\infty \gamma^k r(s_{t+k}) | s_t]$ 和动作价值函数 $Q_\pi(s_t, a_t) = \mathbb{E}_\pi[\sum_{k=0}^\infty \gamma^k r(s_{t+k}) | s_t, a_t]$,进而得到优势函数 $A_\pi(s,a) \coloneqq Q_\pi(s,a) - V_\pi(s)$。 ### 3.2 优先级经验回放 优先级经验回放 (PER) (Schaul et al., 2016) (https://arxiv.org/html/2604.16918#bib.bib3) 维护一个包含转换 $(s,a,r,s')$ 的回放缓冲区 $\mathcal{B}$,并按其优先级成比例的概率进行采样: $$ P(i) = \frac{p_i^\alpha}{\sum_k p_k^\alpha} \quad (2) $$ 其中 $p_i$ 是转换 $i$ 的优先级,$\alpha \in [0,1]$ 控制优先级的程度。当 $\alpha=0$ 时,采样分布退化为均匀采样。优先级通常设置为绝对时序差分 (TD) 误差:$p_i = |\delta_i| + \epsilon$,其中 TD 误差 $\delta_i = r + \gamma V_\pi(s') - V_\pi(s)$

相似文章

后见之明经验回放

OpenAI Blog

# 后见之明经验回放 来源:[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要 处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术,它允许从稀疏二元奖励中进行样本高效学习,因此避免了复杂的奖励工程设计的需要。它可以与任意组合

LongAct:利用内在激活模式进行长上下文强化学习

Hugging Face Daily Papers

LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。