用于样本高效连续控制的无偏模型化表示

Hugging Face Daily Papers 论文

摘要

本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。

近期,模型化表示作为一种极具前景的框架脱颖而出,它将潜在动力学信息嵌入到表示中,用于下游的离策略演员-评论家(actor-critic)学习。这种方法隐含地结合了无模型方法和有模型方法的优势,同时避免了与有模型方法相关的训练成本。然而,现有的模型化表示方法可能无法充分捕获相关变量的信息,并且容易对经验回放缓冲区中的早期经验产生过拟合。这导致了表示学习和演员-评论家学习中的偏差,进而造成性能下降。为了解决这一问题,我们提出了用于 Q-learning 的无偏模型化表示,即 DR.Q 算法。DR.Q 不仅最小化当前状态-动作对与下一状态表示之间的偏差,还显式地最大化它们之间的互信息,并采用淡出优先经验回放来采样转移数据。我们在多个连续控制基准上使用单一超参数集对 DR.Q 进行了评估,结果表明 DR.Q 的表现可以匹敌或超越近期强大的基线方法,有时甚至大幅优于它们。我们的代码可获取于 https://github.com/dmksjfl/DR.Q。
查看原文
查看缓存全文

缓存时间: 2026/05/13 12:15

论文页面 - 用于样本高效连续控制的无偏基于模型的表示

来源: https://huggingface.co/papers/2605.11711

摘要

DR.Q 算法通过最大化互信息并使用褪色的优先经验回放(faded prioritized experience replay)来改善 Q-learning 中的基于模型的表示,从而减少表示学习中的偏差和过拟合。

基于模型的表示(https://huggingface.co/papers?q=Model-based%20representations)最近作为一种有前景的框架脱颖而出,它将潜在动态信息(https://huggingface.co/papers?q=latent%20dynamics%20information)嵌入到表示中,用于下游的离策略 Actor-Critic 学习(https://huggingface.co/papers?q=off-policy%20actor-critic%20learning)。它隐式地结合了无模型方法和基于模型方法(https://huggingface.co/papers?q=model-based%20approaches)两者的优势,同时避免了与基于模型方法相关的训练成本。然而,现有的基于模型的表示方法可能无法充分捕获相关变量的信息,并且可能会对重放缓冲区(https://huggingface.co/papers?q=replay%20buffer)中的早期经验产生过拟合。这会导致表示和 Actor-Critic 学习中的偏差,从而导致性能下降。为了解决这个问题,我们提出了用于 Q-learning(https://huggingface.co/papers?q=Q-learning)的无偏基于模型表示(https://huggingface.co/papers?q=model-based%20Representations),即 DR.Q 算法。DR.Q 不仅最小化表示之间的偏差,还显式地最大化当前状态-动作对与下一个状态的表示之间的互信息(https://huggingface.co/papers?q=mutual%20information),并使用褪色的优先经验回放(https://huggingface.co/papers?q=faded%20prioritized%20experience%20replay)采样转移。我们在许多连续控制基准上使用单组超参数对 DR.Q 进行了评估,结果表明 DR.Q 可以匹敌或超越近期强大的基线方法,有时甚至以较大优势胜出。我们的代码可在 https://github.com/dmksjfl/DR.Q 获取。

查看 arXiv 页面(https://arxiv.org/abs/2605.11711)查看 PDF(https://arxiv.org/pdf/2605.11711)GitHub3(https://github.com/dmksjfl/DR.Q)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.11711)

在你的 agent 中获取这篇论文:

hf papers read 2605\.11711

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接它。

相似文章

表示学习助力可扩展多任务深度强化学习

arXiv cs.LG

本文认为,表示学习(而非基于模型的规划)是可扩展多任务深度强化学习的关键。文章介绍了MR.Q,一种简单的无模型算法,通过辅助预测目标,在多种连续控制任务上优于之前基于世界模型的方法。

Drift Q-Learning

arXiv cs.LG

提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。

Reversal Q-Learning

arXiv cs.LG

本文提出了Reversal Q-Learning(RQL),一种离线强化学习算法,它利用扩展马尔可夫决策过程框架和技术训练流策略,无需随时间反向传播即可实现离策略强化学习。该算法在具有挑战性的模拟机器人任务上达到了最先进的性能。

重新思考LLM强化学习中的散度正则化

Hugging Face Daily Papers

本文介绍了DRPO,它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码,通过提供信任区域边界之外的连续梯度校正,提高了LLM强化学习的稳定性和效率。