model-based-rl

#model-based-rl

秩一角：任务从世界模型中需要多少价值等价性？

arXiv cs.LG ↗ · 2026-07-09 缓存

本文研究了任务需要世界模型中的多少结构，表明目标的维度决定了模型安装了多少预测方向，而常见的标量奖励目标只是价值等价性的秩一角。

0 人收藏 0 人点赞

#model-based-rl

arXiv cs.LG ↗ · 2026-07-03 缓存

本文通过提出离线诊断方法来解决基于模型的强化学习中的目标失配问题，以预测潜在世界模型的闭环性能。在LunarLander-v3上，奖励可观性分数（ROF）和复合分数（CROF）能够选择出生成强大MPC和基于模型的强化学习策略的检查点，同时大幅减少与真实环境的交互次数。

0 人收藏 0 人点赞

#model-based-rl

arXiv cs.AI ↗ · 2026-06-15 缓存

COMET 是一种基于模型的强化学习算法，结合了冻结的对象中心编码器、基于 Transformer 的世界模型和 Monte Carlo Tree Search，通过因果注意力聚焦于任务相关对象，在视觉强化学习基准上取得了更高分数。

0 人收藏 0 人点赞

#model-based-rl

arXiv cs.LG ↗ · 2026-05-29 缓存

本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标，将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法，实验表明预测误差在关键区域降低1.5-2.2倍，并提升了策略从模拟到真实世界的迁移效果。

0 人收藏 0 人点赞

#model-based-rl

arXiv cs.LG ↗ · 2026-05-27 缓存

提出模型基扩散策略优化（MBDPO）框架，该框架通过扩散策略表示统一了世界模型中的搜索与策略优化，在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。

0 人收藏 0 人点赞

#model-based-rl

arXiv cs.LG ↗ · 2026-05-25 缓存

GPLD为DreamerV3引入了梯度惩罚潜在动力学正则化器，强制转换学习中的局部平滑性，提高了连续控制任务（尤其是复杂运动）的样本效率。

0 人收藏 0 人点赞

#model-based-rl

X AI KOLs Timeline ↗ · 2026-05-16 缓存

David Silver强化学习课程第8讲关于整合学习与规划的摘要，涵盖基于模型的强化学习以及AlphaGo使用策略网络和价值网络结合蒙特卡洛树搜索的方法。

0 人收藏 0 人点赞

#model-based-rl

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文介绍了 DR.Q 算法，该算法通过最大化互信息并采用淡出优先经验回放，改善了 Q-learning 的模型化表示，从而减少了连续控制任务中的偏差和过拟合。

0 人收藏 0 人点赞

#model-based-rl

arXiv cs.LG ↗ · 2026-05-11 缓存

本文分析了基于模型的强化学习中的“想象训练”范式，推导了最优样本分配策略，并描述了动态模型和奖励模型的误差如何影响策略回报。

0 人收藏 0 人点赞