标签
本文介绍了 RL4F,一个用于核聚变等离子体控制的离线强化学习基准测试,提供了闭环评估环境和基于 DIII-D 真实托卡马克数据的四个剖面跟踪任务的基线比较。代码库和数据集已开源,以促进进一步研究。
本文提出了一个三阶段诊断框架,用于识别离线模型选择器为何无法胜过最佳单一模型,并将其应用于edX点击流数据上的辍学预测。研究发现瓶颈在于局部表征歧义,而非学习器选择或分布偏移,建议重新设计状态或收集新数据,而非进一步调优算法。
本文介绍了后验混合贝叶斯信念(PhyB),这是一个将贝叶斯强化学习中的期望重新表述为动力学模型的凸组合的框架,从而能够实现具有有界目标差异和最新性能的高效正则化离线策略优化。
提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。
本文介绍了 DOSER,这是一种利用扩散模型进行分布外(OOD)检测和选择性正则化的框架,旨在离线强化学习中通过区分有益和有害的 OOD 动作来提升在静态数据集上的表现。