强化学习中流策略的测试时梯度引导
摘要
QGF 是一种强化学习算法,通过使用价值梯度来指导预训练的流策略,在测试时改进策略,避免了训练时的不稳定性,同时保持了竞争力的性能。
查看缓存全文
缓存时间: 2026/06/10 05:45
论文页面 - 测试时梯度引导的强化学习流策略
来源:https://huggingface.co/papers/2606.11087
摘要
QGF是一种强化学习算法,通过在测试时利用值梯度引导预训练的流策略来改进策略,避免了训练时的不稳定性,同时保持了有竞争力的性能。
表达能力强的连续控制策略,例如扩散模型和流模型(https://huggingface.co/papers?q=flow%20models),构成了近期模拟与真实机器人控制中模仿学习(https://huggingface.co/papers?q=imitation%20learning)规模化进展的基础。虽然它们在有监督的模仿学习(https://huggingface.co/papers?q=imitation%20learning)场景中能够稳定扩展,但将其整合到用于策略改进(https://huggingface.co/papers?q=policy%20improvement)的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)流程中已被证明更为困难。这通常需要专门的训练目标或通过去噪过程进行反向传播,从而引发众所周知的稳定性问题并影响可扩展性。在本文中,我们研究了一个问题:是否仅凭测试时的简单策略改进方案(保持稳定的有监督策略训练不变)就能成为一种有竞争力的替代方案,从而规避这些问题。为此,我们提出了QGF(Q-Guided Flow,https://huggingface.co/papers?q=Q-Guided%20Flow),一种完全在测试时进行策略优化(https://huggingface.co/papers?q=policy%20optimization)的强化学习算法。QGF的工作原理是:预训练一个参考流策略(通过标准的行为克隆(https://huggingface.co/papers?q=behavioral%20cloning)目标)和一个值函数批评家(https://huggingface.co/papers?q=value%20function%20critic),并在测试时利用值梯度引导参考策略生成更高价值的动作,无需任何额外的策略学习。实验上,QGF在高维动作空间的单任务和目标条件离线RL基准测试中优于先前的测试时RL(https://huggingface.co/papers?q=test-time%20RL)方法,并且与最先进的训练时算法相比具有竞争力,同时运行成本更低。此外,它通过避免演员-评论家训练的不稳定性,展现了随模型规模的良好扩展性,为具有表达性策略的强化学习提供了一种实用且有效的替代算法。
查看arXiv页面(https://arxiv.org/abs/2606.11087)查看PDF(https://arxiv.org/pdf/2606.11087)项目页面(https://q-guided-flow.github.io/)GitHub3(https://github.com/zhouzypaul/qgf)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11087)
在你的agent中获取此论文:
hf papers read 2606.11087
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.11087即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.11087即可从此页面链接。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.11087即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
基于价值梯度流的强化学习
价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。
Drift Q-Learning
提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。
@svlevine: 扩散(或流)可生成出色策略,但用强化学习训练它们却出了名的困难:BPTT不稳定,RL…
新论文展示了如何通过用单位矩阵近似流去噪过程的雅可比矩阵来优化用于强化学习的流匹配行动者,使训练变得可行。
策略梯度与软Q学习之间的等价性
# 策略梯度与软Q学习之间的等价性 来源:[https://openai.com/index/equivalence-between-policy-gradients-and-soft-q-learning/](https://openai.com/index/equivalence-between-policy-gradients-and-soft-q-learning/) OpenAI ## 摘要 策略梯度方法和Q学习方法是无模型强化学习中两种主要方法。Q学习方法在有效时样本效率很高,但目前还不太清楚它们为什么能够工作
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。