Drift Q-Learning
摘要
提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。
查看缓存全文
缓存时间: 2026/06/02 15:41
# 漂移Q学习 来源:https://arxiv.org/abs/2606.00350 查看PDF(https://arxiv.org/pdf/2606.00350) > 摘要:离线强化学习需要从固定数据中改进策略,同时避免依赖不可靠价值估计的分布外动作。扩散和流策略通过建模行为分布来正则化强化学习目标,从而处理这一权衡,但它们需要迭代去噪、求解器集成,并且在更高效的变体中,还需要蒸馏或其他推理时的近似方法。我们提出了DriftQL,它将基于漂移的行为正则化器与批判者驱动的策略改进相结合。价值信号将策略偏置到数据支撑中的高价值区域,而吸引力和排斥力共同将生成的动作保持在数据附近,并防止它们坍缩到单一模式。DriftQL实现为单个网络,具有统一的训练目标,并能在单次前向传播中生成动作。在D4RL和OGBench上,DriftQL持续优于扩散和流方法,推进了最先进水平。在数据质量下降的情况下(基线方法明显表现不佳),DriftQL仍能保持接近其干净数据下的性能,使其成为扩散和流方法的有前景替代方案,同时保持确定性方法的简单性和效率。项目页面:此https URL(https://driftql.github.io/) ## 提交历史 来自:Mohamad H Danesh \[查看邮箱(https://arxiv.org/show-email/b71ab235/2606.00350)\] **\[v1\]** 2026年5月29日星期五 20:42:30 UTC(1,995 KB)
相似文章
DRIFT: 解耦轨迹展开与重要性加权微调以实现高效多轮优化
本文提出DRIFT框架,该框架结合离线轨迹与重要性加权监督微调,高效实现与强化学习相当的多轮交互学习性能。
用于样本高效连续控制的无偏模型化表示
本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。
基于价值梯度流的强化学习
价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。
Self-Distilled Policy Gradient
SDPG (Self-Distilled Policy Gradient) is a new RL training framework for LLMs that combines group-relative verifier advantages with on-policy self-distillation and KL regularization to address sparse rewards and instability in RLVR training. The method uses a shared model as both student and teacher by conditioning on privileged context, showing improved stability and performance over RLVR and self-distillation baselines.
用于优化离散扩散语言模型的漂移目标
本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。