offline-reinforcement-learning

标签

Cards List
#offline-reinforcement-learning

面向核聚变等离子体控制的离线强化学习:代码库与基准测试

arXiv cs.LG · 4天前 缓存

本文介绍了 RL4F,一个用于核聚变等离子体控制的离线强化学习基准测试,提供了闭环评估环境和基于 DIII-D 真实托卡马克数据的四个剖面跟踪任务的基线比较。代码库和数据集已开源,以促进进一步研究。

0 人收藏 0 人点赞
#offline-reinforcement-learning

离线选择器为何无法胜过最佳单一模型:基于edX辍学预测的诊断性研究

arXiv cs.LG · 2026-06-04 缓存

本文提出了一个三阶段诊断框架,用于识别离线模型选择器为何无法胜过最佳单一模型,并将其应用于edX点击流数据上的辍学预测。研究发现瓶颈在于局部表征歧义,而非学习器选择或分布偏移,建议重新设计状态或收集新数据,而非进一步调优算法。

0 人收藏 0 人点赞
#offline-reinforcement-learning

基于后验混合贝叶斯信念的正则化离线策略优化

arXiv cs.AI · 2026-06-02 缓存

本文介绍了后验混合贝叶斯信念(PhyB),这是一个将贝叶斯强化学习中的期望重新表述为动力学模型的凸组合的框架,从而能够实现具有有界目标差异和最新性能的高效正则化离线策略优化。

0 人收藏 0 人点赞
#offline-reinforcement-learning

Drift Q-Learning

arXiv cs.LG · 2026-06-02 缓存

提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。

0 人收藏 0 人点赞
#offline-reinforcement-learning

超越惩罚机制:基于扩散模型的离线强化学习分布外检测与选择性正则化

arXiv cs.LG · 2026-05-12 缓存

本文介绍了 DOSER,这是一种利用扩散模型进行分布外(OOD)检测和选择性正则化的框架,旨在离线强化学习中通过区分有益和有害的 OOD 动作来提升在静态数据集上的表现。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈