基于价值梯度流的强化学习
摘要
价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - 通过值梯度流实现强化学习
来源:https://huggingface.co/papers/2604.14265
摘要
值梯度流(Value Gradient Flow)提出了一种可扩展的行为正则化强化学习方法,通过将其形式化为一个通过离散梯度流求解的最优传输问题,实现了自适应测试时缩放,并在离线强化学习和大型语言模型(LLM)强化学习基准上优于现有方法。
我们研究行为正则化强化学习(链接:https://huggingface.co/papers?q=behavior-regularized%20reinforcement%20learning),其中向参考分布(链接:https://huggingface.co/papers?q=reference%20distribution)(离线强化学习中的数据集或LLM强化学习微调中的基础模型)进行正则化对于防止由错误的外推(out-of-distribution extrapolation)导致的价值过优化(链接:https://huggingface.co/papers?q=value%20over-optimization)至关重要。现有方法要么依赖难以扩展到大规模生成模型的重参数化策略梯度(链接:https://huggingface.co/papers?q=reparameterized%20policy%20gradient),要么依赖拒绝采样(链接:https://huggingface.co/papers?q=reject%20sampling),后者在试图超越行为支持时可能过于保守。在本文中,我们提出了值梯度流(VGF),一种可扩展的行为正则化强化学习新范式。VGF将行为正则化强化学习视为一个最优传输问题(链接:https://huggingface.co/papers?q=optimal%20transport%20problem),将参考分布(链接:https://huggingface.co/papers?q=reference%20distribution)映射到价值引导的最优策略分布。我们通过离散梯度流(链接:https://huggingface.co/papers?q=discrete%20gradient%20flow)求解该传输问题,其中值梯度(链接:https://huggingface.co/papers?q=value%20gradients)引导从参考分布(链接:https://huggingface.co/papers?q=reference%20distribution)初始化的粒子。我们的分析表明,VGF通过控制传输预算(链接:https://huggingface.co/papers?q=transport%20budget)隐式施加正则化。VGF消除了显式策略参数化,同时保持表达力和灵活性,通过调整传输预算(链接:https://huggingface.co/papers?q=transport%20budget)实现了自适应测试时缩放(链接:https://huggingface.co/papers?q=adaptive%20test-time%20scaling)。大量实验表明,VGF显著优于先前方法,在离线强化学习基准(D4RL、OGBench)和LLM强化学习任务上取得了最先进的结果。代码和运行结果可在 https://ryanxhr.github.io/vgf/ 找到。
查看 arXiv 页面(https://arxiv.org/abs/2604.14265)查看 PDF(https://arxiv.org/pdf/2604.14265)项目页面(https://ryanxhr.github.io/vgf/)GitHub(https://github.com/ryanxhr/vgf)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.14265)
在您的agent中获取此论文:
hf papers read 2604.14265
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
在模型README.md中引用arxiv.org/abs/2604.14265即可从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集README.md中引用arxiv.org/abs/2604.14265即可从此页面链接。
引用此论文的Spaces0
没有Space链接到此论文
在Space README.md中引用arxiv.org/abs/2604.14265即可从此页面链接。
包含此论文的合集0
没有包含此论文的合集
将这篇论文添加到合集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
强化学习中流策略的测试时梯度引导
QGF 是一种强化学习算法,通过使用价值梯度来指导预训练的流策略,在测试时改进策略,避免了训练时的不稳定性,同时保持了竞争力的性能。
RL用于LLM的价值梯度假说
本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。
@svlevine: 扩散(或流)可生成出色策略,但用强化学习训练它们却出了名的困难:BPTT不稳定,RL…
新论文展示了如何通过用单位矩阵近似流去噪过程的雅可比矩阵来优化用于强化学习的流匹配行动者,使训练变得可行。
GRAIL:面向可验证奖励强化学习的梯度重加权优势方法
GRAIL 引入了梯度重加权优势,以改进 LLM 推理强化学习中的 token 级信用分配,在多个模型上优于 GRPO。
@svlevine: 一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出扩散后期…
一种新的离策略强化学习方法,使用扩散模型,通过反转扩散过程来处理离策略数据。