矩匹配Q学习
摘要
矩匹配Q学习(MoMa QL)利用最大均值差异来匹配所有阶矩统计量,实现离线强化学习中的分布级收敛,在D4RL任务上兼具计算效率和强劲性能。
arXiv:2605.29033v1 公告类型:新
摘要:基于得分和流的生成模型在捕捉复杂分布方面表现出显著的表现能力,并已广泛应用于从图像生成到强化学习的任务中。然而,这些模型存在推理延迟长的问题,这在强化学习中因迭代采样而造成了显著的计算瓶颈。为克服这一限制,我们提出了一种名为矩匹配Q学习(MoMa QL)的新框架,该框架利用统计假设检验中的技术——最大均值差异(MMD),旨在匹配原始分布与目标分布之间的所有阶统计量。通过对所有矩统计量施加强正则化,该算法保证了条件得分函数的分布级收敛,并在各种超参数下保持稳定。实验表明,我们的方法MoMa QL在多种D4RL任务上具有更高的计算效率,同时性能相当甚至更具竞争力。值得注意的是,通过加速基于流的策略的动作采样过程,MoMa QL在离线到在线强化学习任务中表现出优越性能,这是因为其能更快、更强地适应在线交互微调。
查看缓存全文
缓存时间: 2026/05/29 09:15
# 矩匹配 Q 学习 来源:https://arxiv.org/html/2605.29033
###### 摘要
基于分数和基于流的生成模型在捕捉复杂分布方面表现出卓越的表达能力,并已广泛应用于从图像生成到强化学习的各种任务。然而,这些模型存在推理延迟较长的问题,这在迭代采样的强化学习中构成了显著的计算瓶颈。为了克服这一限制,我们提出了一种名为**矩匹配 Q 学习**(MoMa QL)的新框架,该框架利用统计假设检验中的最大均值差异(MMD)技术,旨在匹配原始分布与目标分布之间的所有阶统计量。通过对所有矩统计量施加强正则化,该算法保证了条件得分函数的分布级收敛,并在各种超参数下保持稳定。实验表明,我们的方法 MoMa QL 在多个 D4RL 任务中具有更高的计算效率,且性能可比甚至更具竞争力。值得注意的是,通过加速基于流的策略的动作采样过程,MoMa QL 在离线到在线强化学习任务中表现出更优的性能,因为其能更快、更强地适应在线交互微调。
强化学习、机器人学、扩散策略
## 1 引言
离线强化学习旨在利用先前收集的数据集推导出最优决策策略,而无需进一步与环境交互(Lange 等,2012(https://arxiv.org/html/2605.29033#bib.bib3))。离线 RL 规避了高风险、高成本且低效的在线交互,使得模型能够充分利用先验数据,因此在自动驾驶和机器人操作等安全关键应用中获得了广泛关注(Levine 等,2020(https://arxiv.org/html/2605.29033#bib.bib2))。然而,仅从先前收集的数据中学习可能极具挑战性。传统的强化学习算法通常会遭受分布偏移问题,因为它们会评估行为策略支持范围之外的动作,此时价值估计是不可靠的(Wang 等,2023(https://arxiv.org/html/2605.29033#bib.bib4))。此外,随着数据集变得越来越大且更多样化,行为分布也变得更加复杂和多模态,这需要更富有表达力的策略类别来表示复杂策略(Mandlekar 等,2022(https://arxiv.org/html/2605.29033#bib.bib5))。
为了对这些复杂且可能多模态的策略分布进行建模,高斯混合模型(GMM)(Jacobs 等,1991(https://arxiv.org/html/2605.29033#bib.bib6);Ren 等,2021(https://arxiv.org/html/2605.29033#bib.bib7))和变分自编码器(VAE)(Kumar 等,2019(https://arxiv.org/html/2605.29033#bib.bib10))被广泛用于策略表示,因为它们具有易于采样和优化高效的特性,能够捕捉专家行为背后的概率分布。更高级的框架,如基于朗之万动力学的方法(Chi 等,2025(https://arxiv.org/html/2605.29033#bib.bib11))和概率流方法(Zheng 等,2023(https://arxiv.org/html/2605.29033#bib.bib12)),提供了更优的表达能力,因此它们已被广泛集成到模仿学习和离线 RL 场景中。然而,这些生成模型缓慢的采样速度仍然不满足各种计算密集型在线任务的需求。因此,迫切需要更高效的计算采样方法。
为了解决这一问题,我们引入了**矩匹配 Q 学习**(MoMa QL),它包含一个基于演员-评论家式算法的稳定且具有理论严谨性的策略学习过程。MoMa QL 使得演员策略能够作用于随机插值(Albergo 等,2025(https://arxiv.org/html/2605.29033#bib.bib16))的时间依赖边际分布,该插值连接任意两个概率密度函数。通过学习一个从任意边际分布到时间点的映射函数,我们...
(注:原文此处截断,但根据上下文,后面应接定理内容。)
###### 定理 A.7。假设 \(r(s,t)\) 如前所述,并采用保持边际的插值,\(\theta^*\) 是式 (10)(https://arxiv.org/html/2605.29033#S4.E10)的最小化器,那么对于任意 \(n\),任意 \(t \in [0,1]\),任意 \(s \in [0,1]\),我们有:
\[
\lim_{n\to\infty} \mathsf{MMD}^2\bigl(q_s(\mathbf{x}_s), p_{s|t}^{\theta_n^*}(\mathbf{x}_s)\bigr) = 0.
\]
(24)
###### 证明。我们可以通过归纳法证明。当 \(n=1\) 时,给定 \(r(s,u)=s\) 对于 \(s\)...相似文章
信任区域Q伴随匹配
信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。
通过宽基线匹配激发MLLMs中的复杂空间推理
本文介绍了ReasonMatch-Bench,一个用于多模态大语言模型中宽基线匹配的基准,并提出了动态对应强化学习(DCRL)以提升空间推理能力。实验表明,该方法在基准测试上取得了显著提升,同时保持了通用性能。
Drift Q-Learning
提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。
Return-to-Go 不仅仅是数字:用于返回条件监督学习的 Q 引导对齐
本文提出了 Q-align DT 框架,该框架将 return-to-go 与 Q 值对齐,以提高离线强化学习中的可控性和性能,在 D4RL 基准上取得了优异的结果。
超越模式崩溃:面向多样化推理的分布匹配
本文识别了同策略强化学习方法(如GRPO)中的模式崩溃问题,并提出了DMPO,该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。