Drift Q-Learning

arXiv cs.LG 论文

摘要

提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。

arXiv:2606.00350v1 公告类型: new 摘要: 离线强化学习需要从固定数据中改进策略,同时避免使用不可靠价值估计的分布外动作。扩散和流策略通过建模行为分布来正则化强化学习目标以处理这一权衡,但它们需要迭代去噪、求解器集成,并且在更高效的变体中,还需要蒸馏或其他近似推理。我们提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进。价值信号将策略偏向数据支持的高价值区域,而吸引和排斥共同使生成的行动接近数据,并防止坍缩到单一模式。DriftQL作为单个网络实现,具有统一的训练目标,并在一次前向传播中生成动作。在D4RL和OGBench上,DriftQL始终优于扩散和流方法,推进了最先进技术。在数据质量下降的情况下,基线方法明显挣扎,而DriftQL仍保持接近其干净数据下的性能,使其成为扩散和基于流的方法的有前途替代方案,同时保持了确定性方法的简单性和效率。项目页面: https://driftql.github.io/
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:41

# 漂移Q学习
来源:https://arxiv.org/abs/2606.00350
查看PDF(https://arxiv.org/pdf/2606.00350)

> 摘要:离线强化学习需要从固定数据中改进策略,同时避免依赖不可靠价值估计的分布外动作。扩散和流策略通过建模行为分布来正则化强化学习目标,从而处理这一权衡,但它们需要迭代去噪、求解器集成,并且在更高效的变体中,还需要蒸馏或其他推理时的近似方法。我们提出了DriftQL,它将基于漂移的行为正则化器与批判者驱动的策略改进相结合。价值信号将策略偏置到数据支撑中的高价值区域,而吸引力和排斥力共同将生成的动作保持在数据附近,并防止它们坍缩到单一模式。DriftQL实现为单个网络,具有统一的训练目标,并能在单次前向传播中生成动作。在D4RL和OGBench上,DriftQL持续优于扩散和流方法,推进了最先进水平。在数据质量下降的情况下(基线方法明显表现不佳),DriftQL仍能保持接近其干净数据下的性能,使其成为扩散和流方法的有前景替代方案,同时保持确定性方法的简单性和效率。项目页面:此https URL(https://driftql.github.io/)

## 提交历史

来自:Mohamad H Danesh \[查看邮箱(https://arxiv.org/show-email/b71ab235/2606.00350)\] **\[v1\]** 2026年5月29日星期五 20:42:30 UTC(1,995 KB)

相似文章

用于样本高效连续控制的无偏模型化表示

Hugging Face Daily Papers

本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。

基于价值梯度流的强化学习

Hugging Face Daily Papers

价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。

Self-Distilled Policy Gradient

arXiv cs.LG

SDPG (Self-Distilled Policy Gradient) is a new RL training framework for LLMs that combines group-relative verifier advantages with on-policy self-distillation and KL regularization to address sparse rewards and instability in RLVR training. The method uses a shared model as both student and teacher by conditioning on privileged context, showing improved stability and performance over RLVR and self-distillation baselines.

用于优化离散扩散语言模型的漂移目标

arXiv cs.CL

本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。