用于样本高效连续控制的无偏模型化表示
摘要
本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。
查看缓存全文
缓存时间: 2026/05/13 12:15
论文页面 - 用于样本高效连续控制的无偏基于模型的表示
来源: https://huggingface.co/papers/2605.11711
摘要
DR.Q 算法通过最大化互信息并使用褪色的优先经验回放(faded prioritized experience replay)来改善 Q-learning 中的基于模型的表示,从而减少表示学习中的偏差和过拟合。
基于模型的表示(https://huggingface.co/papers?q=Model-based%20representations)最近作为一种有前景的框架脱颖而出,它将潜在动态信息(https://huggingface.co/papers?q=latent%20dynamics%20information)嵌入到表示中,用于下游的离策略 Actor-Critic 学习(https://huggingface.co/papers?q=off-policy%20actor-critic%20learning)。它隐式地结合了无模型方法和基于模型方法(https://huggingface.co/papers?q=model-based%20approaches)两者的优势,同时避免了与基于模型方法相关的训练成本。然而,现有的基于模型的表示方法可能无法充分捕获相关变量的信息,并且可能会对重放缓冲区(https://huggingface.co/papers?q=replay%20buffer)中的早期经验产生过拟合。这会导致表示和 Actor-Critic 学习中的偏差,从而导致性能下降。为了解决这个问题,我们提出了用于 Q-learning(https://huggingface.co/papers?q=Q-learning)的无偏基于模型表示(https://huggingface.co/papers?q=model-based%20Representations),即 DR.Q 算法。DR.Q 不仅最小化表示之间的偏差,还显式地最大化当前状态-动作对与下一个状态的表示之间的互信息(https://huggingface.co/papers?q=mutual%20information),并使用褪色的优先经验回放(https://huggingface.co/papers?q=faded%20prioritized%20experience%20replay)采样转移。我们在许多连续控制基准上使用单组超参数对 DR.Q 进行了评估,结果表明 DR.Q 可以匹敌或超越近期强大的基线方法,有时甚至以较大优势胜出。我们的代码可在 https://github.com/dmksjfl/DR.Q 获取。
查看 arXiv 页面(https://arxiv.org/abs/2605.11711)查看 PDF(https://arxiv.org/pdf/2605.11711)GitHub3(https://github.com/dmksjfl/DR.Q)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.11711)
在你的 agent 中获取这篇论文:
hf papers read 2605\.11711
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接它。
相似文章
表示学习助力可扩展多任务深度强化学习
本文认为,表示学习(而非基于模型的规划)是可扩展多任务深度强化学习的关键。文章介绍了MR.Q,一种简单的无模型算法,通过辅助预测目标,在多种连续控制任务上优于之前基于世界模型的方法。
Drift Q-Learning
提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。
Reversal Q-Learning
本文提出了Reversal Q-Learning(RQL),一种离线强化学习算法,它利用扩展马尔可夫决策过程框架和技术训练流策略,无需随时间反向传播即可实现离策略强化学习。该算法在具有挑战性的模拟机器人任务上达到了最先进的性能。
R2R2: 通过自预测学习中的冗余减少实现鲁棒表示,用于密集经验重用
提出R2R2,一种用于强化学习中自预测学习的正则化方法,以缓解高更新-数据比下的过拟合,在连续控制任务上取得了显著改进。
重新思考LLM强化学习中的散度正则化
本文介绍了DRPO,它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码,通过提供信任区域边界之外的连续梯度校正,提高了LLM强化学习的稳定性和效率。