强化学习中流策略的测试时梯度引导

Hugging Face Daily Papers 2026/06/09 00:00 论文

摘要

QGF 是一种强化学习算法，通过使用价值梯度来指导预训练的流策略，在测试时改进策略，避免了训练时的不稳定性，同时保持了竞争力的性能。

表达能力强的连续控制策略（如扩散模型和流模型）构成了近年来在模拟和真实机器人控制中扩展模仿学习的最新进展的基石。虽然它们在监督模仿学习设置中能够稳定扩展，但将它们整合到强化学习（RL）流水线中进行策略改进已被证明更加困难。这通常需要专门的训练目标或通过去噪过程进行反向传播，这会导致众所周知的不稳定性问题并影响可扩展性。在本文中，我们研究了一个问题：是否仅通过测试时的简单策略改进方案（同时保持稳定的监督策略训练不变）可以成为一种有竞争力的替代方案，从而规避这些问题。为此，我们提出了 QGF（Q-Guided Flow），一种完全在测试时进行策略优化的 RL 算法。QGF 的工作原理是：预训练一个参考流策略（通过标准的行为克隆目标）和一个价值函数评论家，然后在测试时利用价值梯度来指导参考策略生成更高价值的动作，无需任何额外的策略学习。实验表明，QGF 在高维动作空间的单任务和目标条件离线 RL 基准测试中优于先前的测试时 RL 方法，并且与最先进的训练时算法具有竞争力，同时运行成本更低。此外，通过避免演员-评论家训练的不稳定性，QGF 在模型规模方面展现出良好的扩展性，提供了一种实用且有效的替代 RL 算法，具有表达能力强的策略。

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - 测试时梯度引导的强化学习流策略

来源：https://huggingface.co/papers/2606.11087

摘要

QGF是一种强化学习算法，通过在测试时利用值梯度引导预训练的流策略来改进策略，避免了训练时的不稳定性，同时保持了有竞争力的性能。

表达能力强的连续控制策略，例如扩散模型和流模型（https://huggingface.co/papers?q=flow%20models），构成了近期模拟与真实机器人控制中模仿学习（https://huggingface.co/papers?q=imitation%20learning）规模化进展的基础。虽然它们在有监督的模仿学习（https://huggingface.co/papers?q=imitation%20learning）场景中能够稳定扩展，但将其整合到用于策略改进（https://huggingface.co/papers?q=policy%20improvement）的强化学习（https://huggingface.co/papers?q=reinforcement%20learning）（RL）流程中已被证明更为困难。这通常需要专门的训练目标或通过去噪过程进行反向传播，从而引发众所周知的稳定性问题并影响可扩展性。在本文中，我们研究了一个问题：是否仅凭测试时的简单策略改进方案（保持稳定的有监督策略训练不变）就能成为一种有竞争力的替代方案，从而规避这些问题。为此，我们提出了QGF（Q-Guided Flow，https://huggingface.co/papers?q=Q-Guided%20Flow），一种完全在测试时进行策略优化（https://huggingface.co/papers?q=policy%20optimization）的强化学习算法。QGF的工作原理是：预训练一个参考流策略（通过标准的行为克隆（https://huggingface.co/papers?q=behavioral%20cloning）目标）和一个值函数批评家（https://huggingface.co/papers?q=value%20function%20critic），并在测试时利用值梯度引导参考策略生成更高价值的动作，无需任何额外的策略学习。实验上，QGF在高维动作空间的单任务和目标条件离线RL基准测试中优于先前的测试时RL（https://huggingface.co/papers?q=test-time%20RL）方法，并且与最先进的训练时算法相比具有竞争力，同时运行成本更低。此外，它通过避免演员-评论家训练的不稳定性，展现了随模型规模的良好扩展性，为具有表达性策略的强化学习提供了一种实用且有效的替代算法。

查看arXiv页面（https://arxiv.org/abs/2606.11087）查看PDF（https://arxiv.org/pdf/2606.11087）项目页面（https://q-guided-flow.github.io/）GitHub3（https://github.com/zhouzypaul/qgf）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.11087）

在你的agent中获取此论文：

hf papers read 2606.11087

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.11087即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.11087即可从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.11087即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集（https://huggingface.co/new-collection）即可从此页面链接。

强化学习中流策略的测试时梯度引导

论文页面 - 测试时梯度引导的强化学习流策略

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

基于价值梯度流的强化学习

QPILOTS: 面向流策略的高效测试时Q引导

Reversal Q-Learning

Drift Q-Learning

@svlevine: 扩散（或流）可生成出色策略，但用强化学习训练它们却出了名的困难：BPTT不稳定，RL…

提交意见反馈