基于价值梯度流的强化学习

Hugging Face Daily Papers 论文

摘要

价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。

我们研究行为正则化强化学习(RL),其中向参考分布(离线RL中的数据集或LLM RL微调中的基础模型)进行正则化对于防止因错误的分布外外推导致的价值过度优化至关重要。现有方法要么依赖于重参数化的策略梯度,难以扩展到大型生成模型,要么依赖于拒绝采样,在试图超越行为支持范围时可能过于保守。在本文中,我们提出价值梯度流(VGF),这是一种用于行为正则化RL的可扩展新范式。VGF将行为正则化RL构建为一个最优传输问题,将参考分布映射到由价值引导的最优策略分布。我们通过离散梯度流求解该传输问题,其中价值梯度引导从参考分布初始化的粒子。我们的分析表明,VGF通过控制传输预算隐式施加正则化。VGF消除了显式的策略参数化,同时保持表达能力和灵活性,通过调整传输预算实现自适应的测试时缩放。大量实验表明,VGF显著优于先前的方法,在离线RL基准测试(D4RL、OGBench)和LLM RL任务中取得了最先进的成果。代码和运行结果可在 https://ryanxhr.github.io/vgf 获取。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - 通过值梯度流实现强化学习

来源:https://huggingface.co/papers/2604.14265

摘要

值梯度流(Value Gradient Flow)提出了一种可扩展的行为正则化强化学习方法,通过将其形式化为一个通过离散梯度流求解的最优传输问题,实现了自适应测试时缩放,并在离线强化学习和大型语言模型(LLM)强化学习基准上优于现有方法。

我们研究行为正则化强化学习(链接:https://huggingface.co/papers?q=behavior-regularized%20reinforcement%20learning),其中向参考分布(链接:https://huggingface.co/papers?q=reference%20distribution)(离线强化学习中的数据集或LLM强化学习微调中的基础模型)进行正则化对于防止由错误的外推(out-of-distribution extrapolation)导致的价值过优化(链接:https://huggingface.co/papers?q=value%20over-optimization)至关重要。现有方法要么依赖难以扩展到大规模生成模型的重参数化策略梯度(链接:https://huggingface.co/papers?q=reparameterized%20policy%20gradient),要么依赖拒绝采样(链接:https://huggingface.co/papers?q=reject%20sampling),后者在试图超越行为支持时可能过于保守。在本文中,我们提出了值梯度流(VGF),一种可扩展的行为正则化强化学习新范式。VGF将行为正则化强化学习视为一个最优传输问题(链接:https://huggingface.co/papers?q=optimal%20transport%20problem),将参考分布(链接:https://huggingface.co/papers?q=reference%20distribution)映射到价值引导的最优策略分布。我们通过离散梯度流(链接:https://huggingface.co/papers?q=discrete%20gradient%20flow)求解该传输问题,其中值梯度(链接:https://huggingface.co/papers?q=value%20gradients)引导从参考分布(链接:https://huggingface.co/papers?q=reference%20distribution)初始化的粒子。我们的分析表明,VGF通过控制传输预算(链接:https://huggingface.co/papers?q=transport%20budget)隐式施加正则化。VGF消除了显式策略参数化,同时保持表达力和灵活性,通过调整传输预算(链接:https://huggingface.co/papers?q=transport%20budget)实现了自适应测试时缩放(链接:https://huggingface.co/papers?q=adaptive%20test-time%20scaling)。大量实验表明,VGF显著优于先前方法,在离线强化学习基准(D4RL、OGBench)和LLM强化学习任务上取得了最先进的结果。代码和运行结果可在 https://ryanxhr.github.io/vgf/ 找到。

查看 arXiv 页面(https://arxiv.org/abs/2604.14265)查看 PDF(https://arxiv.org/pdf/2604.14265)项目页面(https://ryanxhr.github.io/vgf/)GitHub(https://github.com/ryanxhr/vgf)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.14265)

在您的agent中获取此论文:

hf papers read 2604.14265

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2604.14265即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2604.14265即可从此页面链接。

引用此论文的Spaces0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2604.14265即可从此页面链接。

包含此论文的合集0

没有包含此论文的合集

将这篇论文添加到合集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

强化学习中流策略的测试时梯度引导

Hugging Face Daily Papers

QGF 是一种强化学习算法,通过使用价值梯度来指导预训练的流策略,在测试时改进策略,避免了训练时的不稳定性,同时保持了竞争力的性能。

RL用于LLM的价值梯度假说

arXiv cs.LG

本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。