checkpoint-selection

#checkpoint-selection

预测潜在世界模型的闭环性能：LunarLander中非马尔可夫奖励下MPC和基于模型的强化学习的离线检查点选择

arXiv cs.LG ↗ · 2026-07-03 缓存

本文通过提出离线诊断方法来解决基于模型的强化学习中的目标失配问题，以预测潜在世界模型的闭环性能。在LunarLander-v3上，奖励可观性分数（ROF）和复合分数（CROF）能够选择出生成强大MPC和基于模型的强化学习策略的检查点，同时大幅减少与真实环境的交互次数。

0 人收藏 0 人点赞

#checkpoint-selection

arXiv cs.LG ↗ · 2026-05-20

本文解决了评估不确定性下多模态大语言模型的鲁棒检查点选择挑战，提出了一个多阶段框架，整合了精心策划的真实世界数据、基于LLM的判断以及带有置信度估计的排序协议。

0 人收藏 0 人点赞

#checkpoint-selection

TLDR AI ↗ · 2026-05-19 缓存

本文揭示，在预训练过程中，语言模型会频繁且突然地在模式匹配与泛化行为之间切换，这种现象被称为“模式跳跃”（mode-hopping），并提出了一个用于研究该现象的小型评估套件。

0 人收藏 0 人点赞