QPILOTS: 面向流策略的高效测试时Q引导

arXiv cs.LG 论文

摘要

QPILOTS是一种方法,通过使用从噪声中间状态投影的评论家梯度,在推理时引导流策略,在离线到在线强化学习基准上实现了最先进的性能,并在不修改基础策略的情况下改进了预训练的VLA模型。

arXiv:2606.14801v1 公告类型:新 摘要:流匹配和扩散策略是表达能力强的动作生成器,但使用时序差分强化学习(RL)优化它们仍然困难。有效的策略提取需要利用评论家的动作梯度,但直接通过多步去噪过程反向传播该信号可能数值不稳定。现有方法要么丢弃梯度信息,将策略蒸馏为更简单的单步执行器,要么随着评论家改进而反复微调去噪策略。我们提出QPILOTS,该方法保持原始策略不变,在推理时引导去噪过程。在每个去噪步骤中,我们不在评论家预测不可靠的噪声中间动作上评估评论家,而是首先将该中间状态投影到最终干净动作的估计值,并在那里计算评论家梯度。我们引入了两种变体:QPILOTS-U使用快速单点近似,而QPILOTS-M通过学习的辅助网络绘制可微的后验样本。在标准离线到在线强化学习基准上,QPILOTS实现了最佳整体性能,在50个任务上达到平均成功率90%。我们还将QPILOTS应用于引导一个大型、冻结的预训练视觉-语言动作(VLA)基础模型,在模拟中的六个操作任务上优于或匹配了先前的推理时方法。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:35

# 面向流策略的高效测试时Q值引导 来源: https://arxiv.org/html/2606.14801 Yifan Ruan¹,² Chenyang Cao¹ Andreas Burger¹,² Ali Pesaranghader³ Kaveh Kamali³ Jaehong Kim³ Nandita Vijaykumar¹,² Alan Aspuru\-Guzik¹,² Igor Gilitschenski¹,² Nicholas Rhinehart¹ ¹多伦多大学 ²向量研究所 ³LG电子 ###### 摘要 流匹配与扩散策略是表达能力强的动作生成器,但使用时序差分强化学习(RL)对其进行优化仍然困难。有效的策略提取需要利用评论家的动作梯度,然而直接通过多步去噪过程反向传播该信号可能导致数值不稳定。现有方法要么丢弃梯度信息,要么将策略提炼为更简单的单步actor,要么随着评论家的改进而反复微调去噪策略。我们提出 **QPILOTS** 方法,保持原始策略不变,在推理时引导去噪过程。在每个去噪步骤中,评论家对含有噪声的中间动作的预测不可靠,我们不直接在该噪声动作上评估评论家,而是先将该中间状态投影到最终清洁动作的估计值上,然后在该清洁估计值处计算评论家梯度。我们引入两种变体:**QPILOTS-U** 使用快速单点近似,而 **QPILOTS-M** 通过一个学习到的辅助网络抽取可微分的后验样本。在标准的离线到在线RL基准测试中,**QPILOTS** 取得了最佳的总体性能,在50个任务上的平均成功率达到 90%。我们还将 **QPILOTS** 应用于引导一个大型、冻结的、预训练的视觉-语言-动作(VLA)基础模型,在模拟环境中的六个操作任务上,其表现优于或匹配现有的推理时方法。 参见标题 参见标题 图1: **QPILOTS** 将策略提取转化为流时间倾斜采样。**左图**: 对于基础策略 π_β 和目标评论家 Q,KL正则化策略改进产生评论家倾斜目标 π*(a|s) ∝ π_β(a|s) exp(τQ(s,a))。Q函数诱导一个对数倾斜势能,其梯度为基本策略的流估计器 v_θ 提供生成时漂移修正。**QPILOTS** 高效估计该梯度以进行引导,无需更新基础策略。**右图**: 在 OGBench [41 (https://arxiv.org/html/2606.14801#bib.bib8)] 的50个任务上聚合的离线到在线成功率。

## 1 引言

流匹配与扩散策略已成为连续控制和视觉-语言-动作模型(VLA)中表示复杂、多模态动作分布的事实标准 [32 (https://arxiv.org/html/2606.14801#bib.bib20),8 (https://arxiv.org/html/2606.14801#bib.bib23),10 (https://arxiv.org/html/2606.14801#bib.bib22)],并且人们持续关注如何使用下游奖励改进这些策略 [43 (https://arxiv.org/html/2606.14801#bib.bib10),54 (https://arxiv.org/html/2606.14801#bib.bib12),13 (https://arxiv.org/html/2606.14801#bib.bib13),30 (https://arxiv.org/html/2606.14801#bib.bib9)]。形式上,这可以归结为 **行为约束** 策略学习,其中智能体配备有在离线数据集 D 上训练的基础流策略 π_β(a|s),并通过在线交互使用学习到的评论家 Q 来改进策略,同时不失偏离基础策略太远。最近,Park 等人 [42 (https://arxiv.org/html/2606.14801#bib.bib11)] 表明,主要挑战在于从 (π_β, Q) 中提取最优策略,而不是学习 Q 本身。我们将这种从基础策略和评论家到改进后动作分布的映射称为 **策略提取**。提取器要么在训练期间修改策略,要么在推理时引导其样本。对于简单的重参数化策略,评论家的动作梯度 ∇_a Q(s,a) 可以指导策略更新。对于流策略,同一信号必须通过多步生成过程,而通过去噪过程进行反向传播通常不稳定或代价高昂 [56 (https://arxiv.org/html/2606.14801#bib.bib33),48 (https://arxiv.org/html/2606.14801#bib.bib43),37 (https://arxiv.org/html/2606.14801#bib.bib44)]。为避免这种不稳定性,先前的工作将原始流策略提炼成单步近似 [43 (https://arxiv.org/html/2606.14801#bib.bib10),30 (https://arxiv.org/html/2606.14801#bib.bib9)],或使用微调来瞄准最优策略 [47 (https://arxiv.org/html/2606.14801#bib.bib36),16 (https://arxiv.org/html/2606.14801#bib.bib37),30 (https://arxiv.org/html/2606.14801#bib.bib9)]。在实践中,前者牺牲了表达能力,后者需要调整策略参数,由于巨大的计算开销而阻碍了其向大容量模型的扩展性。这推动了另一类方法在 **推理** 期间应用引导,从而免除了微调的需要。然而,在离线-在线强化学习(RL)基准测试中,它们迄今为止的表现不如使用微调的方法 [30 (https://arxiv.org/html/2606.14801#bib.bib9)],并且通常表达能力有限 [13 (https://arxiv.org/html/2606.14801#bib.bib13)],成本高 [20 (https://arxiv.org/html/2606.14801#bib.bib39)],或在评论家未经校准的噪声动作上应用引导 [54 (https://arxiv.org/html/2606.14801#bib.bib12),30 (https://arxiv.org/html/2606.14801#bib.bib9)]。为了解决这些局限性,我们提出了 **QPILOTS**(Q值引导的后验推理用于离线策略学习和测试时引导)。我们的主要方法 **QPILOTS-M** 建立在元流映射(MFM)[46 (https://arxiv.org/html/2606.14801#bib.bib18)] 基础上,构建了一个在流采样过程中对清洁动作 Q 值梯度的渐近无偏估计器。这使得标准的离策略评论家能够引导基础策略,而无需在含噪声的中间隐变量上评估评论家。反过来,**QPILOTS-M** 恢复了训练时提取器可用的绝大部分有用梯度信息,既避免了通过完整去噪链反向传播的不稳定性,也避免了一步式蒸馏的表达能力损失。通过实验,我们发现 **QPILOTS** 在 OGBench [41 (https://arxiv.org/html/2606.14801#bib.bib8)] 离线/离线到在线 RL 基准测试中,与具有竞争力的训练时 [56 (https://arxiv.org/html/2606.14801#bib.bib33),43 (https://arxiv.org/html/2606.14801#bib.bib10),30 (https://arxiv.org/html/2606.14801#bib.bib9)] 和推理时基线 [20 (https://arxiv.org/html/2606.14801#bib.bib39),54 (https://arxiv.org/html/2606.14801#bib.bib12),13 (https://arxiv.org/html/2606.14801#bib.bib13)] 相比,取得了最佳的聚合分数,确立了自己作为策略提取的有力解决方案的地位。我们进一步将 **QPILOTS** 应用于引导最先进的预训练通用模型 π0.5 [7 (https://arxiv.org/html/2606.14801#bib.bib45)],无需修改基础流,证明了即使使用行为 Q 值,**QPILOTS** 也能成功从在线交互中学习,在 LIBERO-90 套件 [33 (https://arxiv.org/html/2606.14801#bib.bib46)] 的 6 个任务上超越或匹配其他推理时方法。综合来看,我们的贡献是一种高效的推理时引导方案,它通过利用清洁空间 Q 值指导中间生成过程,将 RL 应用于流策略。

## 2 相关工作

#### 离线到在线强化学习。离线到在线 RL 方法利用离线数据集预训练策略和价值函数,然后通过在线交互进行微调,以提高样本效率 [58 (https://arxiv.org/html/2606.14801#bib.bib65),28 (https://arxiv.org/html/2606.14801#bib.bib49),52 (https://arxiv.org/html/2606.14801#bib.bib50),40 (https://arxiv.org/html/2606.14801#bib.bib51),53 (https://arxiv.org/html/2606.14801#bib.bib7),62 (https://arxiv.org/html/2606.14801#bib.bib67),29 (https://arxiv.org/html/2606.14801#bib.bib48)]。一种常见的做法是在两个阶段使用相同的离线 RL 目标,将离线数据集与新收集的转移一起加载到回放缓冲区中 [5 (https://arxiv.org/html/2606.14801#bib.bib1)]。虽然纯在线方法可以将离线数据视为额外的离策略经验,但离线预训练在具有挑战性的稀疏奖励任务上通常会产生更强的结果 [31 (https://arxiv.org/html/2606.14801#bib.bib53),30 (https://arxiv.org/html/2606.14801#bib.bib9)]。我们采用这种训练设置来训练评论家,并重点关注 **策略提取** 这一互补性挑战,即在保持接近行为支持的同时,使用策略选择高价值动作 [18 (https://arxiv.org/html/2606.14801#bib.bib27),27 (https://arxiv.org/html/2606.14801#bib.bib26),40 (https://arxiv.org/html/2606.14801#bib.bib51)]。这种强调源于以下观察:即使价值函数训练良好,策略提取和测试时泛化也可能是离线 RL 中的限制因素 [42 (https://arxiv.org/html/2606.14801#bib.bib11)]。它还为我们的方法提供了内在的部署灵活性,允许在离线、在线或微调期间使用相同的推理时提取器。

#### 使用扩散和流策略的强化学习。扩散和流匹配策略凭借其表示复杂、多模态动作分布的能力,已成为模仿学习和 RL 中的主导策略类别 [24 (https://arxiv.org/html/2606.14801#bib.bib54),2 (https://arxiv.org/html/2606.14801#bib.bib55),26 (https://arxiv.org/html/2606.14801#bib.bib56),21 (https://arxiv.org/html/2606.14801#bib.bib57),35 (https://arxiv.org/html/2606.14801#bib.bib58),20 (https://arxiv.org/html/2606.14801#bib.bib39),12 (https://arxiv.org/html/2606.14801#bib.bib34),9 (https://arxiv.org/html/2606.14801#bib.bib59),48 (https://arxiv.org/html/2606.14801#bib.bib43),10 (https://arxiv.org/html/2606.14801#bib.bib22)]。一个核心挑战在于,当生成过程涉及多步去噪链时,如何针对评论家 Q(s,a) 优化这些策略。与先前根据价值函数使用方式对方法进行分类的工作不同 [30 (https://arxiv.org/html/2606.14801#bib.bib9)],我们根据基础策略在训练和推理期间的处理方式来对它们进行分类。根据这一视角,现有方法可分为三种策略。 1. **通过时间反向传播(BPTT)** 提供了一种使用价值信号的直接方法,它通过将评论家微分到完整的去噪链中,以最大化 Q [56 (https://arxiv.org/html/2606.14801#bib.bib33),21 (https://arxiv.org/html/2606.14801#bib.bib57),60 (https://arxiv.org/html/2606.14801#bib.bib60)]。相关的策略梯度公式则使似然或优势比对于流策略而言易于处理,并更新策略本身 [37 (https://arxiv.org/html/2606.14801#bib.bib44),61 (https://arxiv.org/html/2606.14801#bib.bib66)]。虽然概念上简单,但通过多步流的长时间展开链计算梯度极易出现数值不稳定性 [43 (https://arxiv.org/html/2606.14801#bib.bib10)]。 2. **无 BPTT 的策略微调** 通过改变策略目标来避免全链梯度。一些方法将多步流提炼为简化的单步策略,提高了稳定性,但放弃了原始模型的部分迭代表达能力 [12 (https://arxiv.org/html/2606.14801#bib.bib34),43 (https://arxiv.org/html/2606.14801#bib.bib10),15 (https://arxiv.org/html/2606.14801#bib.bib35),55 (https://arxiv.org/html/2606.14801#bib.bib70)]。其他方法构建了一个逐步骤的训练目标,在中间去噪状态使用评论家信息。像 QAM [30 (https://arxiv.org/html/2606.14801#bib.bib9)] 以及梯度近似或价值加权的其他变体 [47 (https://arxiv.org/html/2606.14801#bib.bib36),16 (https://arxiv.org/html/2606.14801#bib.bib37),17 (https://arxiv.org/html/2606.14801#bib.bib38)],构建了专门的损失函数,其中评论家梯度仅在孤立的去噪步骤中通过基础策略。虽然这避免了反向传播的不稳定性,但它们通过专门的损失函数耦合了基础流和评论家,并且每当评论家发生变化时都需要重新训练策略。 3. **推理时引导** 在测试时修改动作生成过程,而不影响训练。DSRL [49 (https://arxiv.org/html/2606.14801#bib.bib40),54 (https://arxiv.org/html/2606.14801#bib.bib12)] 训练一个噪声空间 RL 策略,扰动冻结流的输入隐变量。残差和编辑策略 [25 (https://arxiv.org/html/2606.14801#bib.bib62),3 (https://arxiv.org/html/2606.14801#bib.bib61),13 (https://arxiv.org/html/2606.14801#bib.bib13),59 (https://arxiv.org/html/2606.14801#bib.bib41)] 训练一个独立的校正器,作用于已完成的动作。Best-of-N [20 (https://arxiv.org/html/2606.14801#bib.bib39),39 (https://arxiv.org/html/2606.14801#bib.bib16),36 (https://arxiv.org/html/2606.14801#bib.bib42),4 (https://arxiv.org/html/2606.14801#bib.bib14)] 从基础策略中采样 N 个候选,挑选 Q 值最高的一个,随动作维度扩展性差。所有这些方法要么在完整动作生成后咨询评论家,要么通过一个单独训练的辅助策略进行。我们的方法则是在 **每个** 去噪步骤中向欧拉积分器注入一个无噪声动作的 Q 梯度,在积分过程中引导轨迹,无需训练编辑策略或修改基础流权重。

#### 流引导与条件生成。分类器引导 [11 (https://arxiv.org/html/2606.14801#bib.bib28),22 (https://arxiv.org/html/2606.14801#bib.bib63)] 通过向扩散漂移添加奖励梯度来引导生成。然而,在噪声状态上评估奖励会产生倾斜目标 p_θ ∝ p_β e^r 的有偏估计器,因为奖励通常只在终端数据上进行校准 [6 (https://arxiv.org/html/2606.14801#bib.bib17)]。通用引导 [6 (https://arxiv.org/html/2606.14801#bib.bib17),4 (https://arxiv.org/html/2606.14801#bib.bib14)] 通过在 Tweedie 去噪估计 x̂₁ 上评估奖励来缓解这个问题,但当条件分布 p_{1|t}(·|x_t) 是多模态时,会引入后验均值偏差。因此,现有的引导方向存在差异:它们使用噪声空间梯度 ∇Q(s, x_t),去噪点梯度 ∇Q(s, x̂₁),还是真正的后验倾斜梯度 ∇_{x_t} log E_{x₁~p_{1|t}} e^{τQ(s, x₁)}。粒子方法如 SMC 采样器 [57 (https://arxiv.org/html/2606.14801#bib.bib86)]、DynaGuide [14 (https://arxiv.org/html/2606.14801#bib.bib15)] 通过重采样、噪声样本分类器或验证来减少相关的引导偏差,但增加了粒子、辅助训练或样本选择成本。元流映射 [46 (https://arxiv.org/html/2606.14801#bib.bib18)] 及相关随机流图模型 [23 (https://arxiv.org/html/2606.14801#bib.bib69)] 通过从 p_{1|t} 生成可微分的样本来解决后验采样的挑战,从而实现对对数倾斜势能梯度的蒙特卡洛估计。我们将这一工作路线适应于 RL,使用学习到的 Q 函数作为倾斜标量,并在策略采样期间应用由此产生的无噪声动作后验梯度。

## 3 预备知识与背景

#### 强化学习。我们考虑一个马尔可夫决策过程 M = (S, A, P, γ, R, μ),其中 S 是状态空间,A = R^A 是连续动作空间,Δ X 是去噪

相似文章

强化学习中流策略的测试时梯度引导

Hugging Face Daily Papers

QGF 是一种强化学习算法,通过使用价值梯度来指导预训练的流策略,在测试时改进策略,避免了训练时的不稳定性,同时保持了竞争力的性能。

Reversal Q-Learning

arXiv cs.LG

本文提出了Reversal Q-Learning(RQL),一种离线强化学习算法,它利用扩展马尔可夫决策过程框架和技术训练流策略,无需随时间反向传播即可实现离策略强化学习。该算法在具有挑战性的模拟机器人任务上达到了最先进的性能。

Drift Q-Learning

arXiv cs.LG

提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。

近未来策略优化

Hugging Face Daily Papers

提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。