mdp

标签

Cards List
#mdp

基础模型体的模拟-现实差距:统一的MDP视角

arXiv cs.AI · 2026-06-08 缓存

本文将基础模型体的模拟-现实差距形式化为马尔可夫决策过程问题,提出了统一的研究议程,以适应如领域随机化等经典解决方案,从而提升智能体在真实部署中的鲁棒性和可靠性。

0 人收藏 0 人点赞
#mdp

布尔任务代数中任务组合的目标集刻画

arXiv cs.LG · 2026-06-04 缓存

本文重新审视了强化学习中用于零样本任务组合的布尔任务代数(BTA),证明了在确定性MDP中,所有最优扩展Q函数可归结为两个分量(全局任务和空任务),使得原始BTA中提出的对数基任务集变得多余。作者引入了一种基于目标集的组合方法,在保持策略性能的同时降低了学习成本和组合时间,并在多个实验域中验证了其有效性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈