用于样本高效连续控制的无偏模型化表示

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

本文介绍了 DR.Q 算法，该算法通过最大化互信息并采用淡出优先经验回放，改善了 Q-learning 的模型化表示，从而减少了连续控制任务中的偏差和过拟合。

近期，模型化表示作为一种极具前景的框架脱颖而出，它将潜在动力学信息嵌入到表示中，用于下游的离策略演员-评论家（actor-critic）学习。这种方法隐含地结合了无模型方法和有模型方法的优势，同时避免了与有模型方法相关的训练成本。然而，现有的模型化表示方法可能无法充分捕获相关变量的信息，并且容易对经验回放缓冲区中的早期经验产生过拟合。这导致了表示学习和演员-评论家学习中的偏差，进而造成性能下降。为了解决这一问题，我们提出了用于 Q-learning 的无偏模型化表示，即 DR.Q 算法。DR.Q 不仅最小化当前状态-动作对与下一状态表示之间的偏差，还显式地最大化它们之间的互信息，并采用淡出优先经验回放来采样转移数据。我们在多个连续控制基准上使用单一超参数集对 DR.Q 进行了评估，结果表明 DR.Q 的表现可以匹敌或超越近期强大的基线方法，有时甚至大幅优于它们。我们的代码可获取于 https://github.com/dmksjfl/DR.Q。

查看原文

查看缓存全文

缓存时间: 2026/05/13 12:15

论文页面 - 用于样本高效连续控制的无偏基于模型的表示

来源: https://huggingface.co/papers/2605.11711

摘要

DR.Q 算法通过最大化互信息并使用褪色的优先经验回放（faded prioritized experience replay）来改善 Q-learning 中的基于模型的表示，从而减少表示学习中的偏差和过拟合。

基于模型的表示（https://huggingface.co/papers?q=Model-based%20representations）最近作为一种有前景的框架脱颖而出，它将潜在动态信息（https://huggingface.co/papers?q=latent%20dynamics%20information）嵌入到表示中，用于下游的离策略 Actor-Critic 学习（https://huggingface.co/papers?q=off-policy%20actor-critic%20learning）。它隐式地结合了无模型方法和基于模型方法（https://huggingface.co/papers?q=model-based%20approaches）两者的优势，同时避免了与基于模型方法相关的训练成本。然而，现有的基于模型的表示方法可能无法充分捕获相关变量的信息，并且可能会对重放缓冲区（https://huggingface.co/papers?q=replay%20buffer）中的早期经验产生过拟合。这会导致表示和 Actor-Critic 学习中的偏差，从而导致性能下降。为了解决这个问题，我们提出了用于 Q-learning（https://huggingface.co/papers?q=Q-learning）的无偏基于模型表示（https://huggingface.co/papers?q=model-based%20Representations），即 DR.Q 算法。DR.Q 不仅最小化表示之间的偏差，还显式地最大化当前状态-动作对与下一个状态的表示之间的互信息（https://huggingface.co/papers?q=mutual%20information），并使用褪色的优先经验回放（https://huggingface.co/papers?q=faded%20prioritized%20experience%20replay）采样转移。我们在许多连续控制基准上使用单组超参数对 DR.Q 进行了评估，结果表明 DR.Q 可以匹敌或超越近期强大的基线方法，有时甚至以较大优势胜出。我们的代码可在 https://github.com/dmksjfl/DR.Q 获取。

查看 arXiv 页面（https://arxiv.org/abs/2605.11711）查看 PDF（https://arxiv.org/pdf/2605.11711）GitHub3（https://github.com/dmksjfl/DR.Q）添加到收藏集（https://huggingface.co/login?next=%2Fpapers%2F2605.11711）

在你的 agent 中获取这篇论文：

hf papers read 2605\.11711

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.11711 即可从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集（https://huggingface.co/new-collection）即可从此页面链接它。

用于样本高效连续控制的无偏模型化表示

论文页面 - 用于样本高效连续控制的无偏基于模型的表示

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

表示学习助力可扩展多任务深度强化学习

Drift Q-Learning

Reversal Q-Learning

R2R2: 通过自预测学习中的冗余减少实现鲁棒表示，用于密集经验重用

重新思考LLM强化学习中的散度正则化

提交意见反馈