标签
本文提出了一种用于强化学习的性能驱动的状态抽象方法,直接优化决策质量,采用多时间尺度框架共同调整策略和树状结构抽象。该算法基于Q值差异细化或聚合状态空间,相比基线实现了更好的样本效率和更快的重新规划。
本文研究了平均奖励弱耦合MDP和休止臂赌博机学习中的样本复杂度,利用一种新颖的基于Lyapunov的分析框架,确立了具有多项式复杂度的有限样本PAC保证。
本文介绍了Bellman-Taylor Score Decoding,一种用于处理马尔可夫决策过程中状态依赖可行动作集的方法,解决了将深度强化学习应用于运筹学问题的一个关键挑战。
本文正式定义了强化学习中的精确遗忘问题,提出了一种用于表格型MDP的ρ-TV-稳定强化学习算法,该算法能以重训练成本的一小部分高效移除用户数据影响,并实现了接近最小最大最优的遗憾界。该工作已被ICML接收,并建立了ρ-TV-稳定强化学习算法的上下界。
本文介绍了一种基于回答集编程(ASP)的CARCASS框架实现,用于在强化学习中构建抽象,并在Blocks World和Minigrid领域展示了其有效性。
本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架,该框架能够随时间自适应地平衡鲁棒性与探索,提供了理论遗憾界并展示了强大的实证性能。
文章推荐斯坦福大学关于马尔可夫决策过程的讲座作为理解系统化交易数学基础的宝贵资源,声称其提供的洞察力胜过在主要金融机构进行的短期实习。