Drift Q-Learning

arXiv cs.LG 2026/06/02 04:00 论文

摘要

提出了DriftQL，它结合了基于漂移的行为正则化器与评论家驱动的策略改进，用于离线强化学习，在D4RL和OGBench上优于扩散和流方法，同时保持简单性和效率。

arXiv:2606.00350v1 公告类型: new 摘要: 离线强化学习需要从固定数据中改进策略，同时避免使用不可靠价值估计的分布外动作。扩散和流策略通过建模行为分布来正则化强化学习目标以处理这一权衡，但它们需要迭代去噪、求解器集成，并且在更高效的变体中，还需要蒸馏或其他近似推理。我们提出了DriftQL，它结合了基于漂移的行为正则化器与评论家驱动的策略改进。价值信号将策略偏向数据支持的高价值区域，而吸引和排斥共同使生成的行动接近数据，并防止坍缩到单一模式。DriftQL作为单个网络实现，具有统一的训练目标，并在一次前向传播中生成动作。在D4RL和OGBench上，DriftQL始终优于扩散和流方法，推进了最先进技术。在数据质量下降的情况下，基线方法明显挣扎，而DriftQL仍保持接近其干净数据下的性能，使其成为扩散和基于流的方法的有前途替代方案，同时保持了确定性方法的简单性和效率。项目页面: https://driftql.github.io/

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:41

# 漂移Q学习
来源：https://arxiv.org/abs/2606.00350
查看PDF（https://arxiv.org/pdf/2606.00350）

> 摘要：离线强化学习需要从固定数据中改进策略，同时避免依赖不可靠价值估计的分布外动作。扩散和流策略通过建模行为分布来正则化强化学习目标，从而处理这一权衡，但它们需要迭代去噪、求解器集成，并且在更高效的变体中，还需要蒸馏或其他推理时的近似方法。我们提出了DriftQL，它将基于漂移的行为正则化器与批判者驱动的策略改进相结合。价值信号将策略偏置到数据支撑中的高价值区域，而吸引力和排斥力共同将生成的动作保持在数据附近，并防止它们坍缩到单一模式。DriftQL实现为单个网络，具有统一的训练目标，并能在单次前向传播中生成动作。在D4RL和OGBench上，DriftQL持续优于扩散和流方法，推进了最先进水平。在数据质量下降的情况下（基线方法明显表现不佳），DriftQL仍能保持接近其干净数据下的性能，使其成为扩散和流方法的有前景替代方案，同时保持确定性方法的简单性和效率。项目页面：此https URL（https://driftql.github.io/）

## 提交历史

来自：Mohamad H Danesh \[查看邮箱（https://arxiv.org/show-email/b71ab235/2606.00350）\] **\[v1\]** 2026年5月29日星期五 20:42:30 UTC（1,995 KB）

Drift Q-Learning

相似文章

Reversal Q-Learning

QPILOTS: 面向流策略的高效测试时Q引导

@svlevine: 扩散（或流）可生成出色策略，但用强化学习训练它们却出了名的困难：BPTT不稳定，RL…

DRIFT: 解耦轨迹展开与重要性加权微调以实现高效多轮优化

@svlevine: 一种使用扩散进行离策略强化学习的新方法：如果我们有离策略数据，我们需要找出扩散后期…

提交意见反馈