inverse-reinforcement-learning

标签

Cards List
#inverse-reinforcement-learning

信任域逆强化学习:利用局部策略更新进行显式对偶上升

arXiv cs.LG · 昨天 缓存

本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。

0 人收藏 0 人点赞
#inverse-reinforcement-learning

通过双层优化实现交互场景的交互式逆向强化学习

arXiv cs.LG · 2天前 缓存

本文介绍了交互式逆向强化学习(IIRL),这是一个学习者通过与专家主动互动来推断奖励函数的框架,其形式化为随机双层优化问题。作者提出了 BISIRL 算法,为该交互式学习范式提供了收敛性保证和实验验证。

0 人收藏 0 人点赞
#inverse-reinforcement-learning

利用逆强化学习进行多目标约束推断

arXiv cs.AI · 3天前 缓存

本文介绍了 MOCI,这是一种新颖的框架,能够从强化学习中的异构专家演示中推断共享约束和个体偏好,在预测性能和计算效率方面均优于现有基线。

0 人收藏 0 人点赞
#inverse-reinforcement-learning

SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL · 2026-04-21 缓存

研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。

0 人收藏 0 人点赞
#inverse-reinforcement-learning

生成对抗网络、逆强化学习和基于能量模型之间的联系

OpenAI Blog · 2016-11-11 缓存

本文建立了生成对抗网络 (GAN)、逆强化学习 (IRL) 和基于能量的模型 (EBM) 之间的数学等价性,证明了某些 IRL 方法等价于具有可评估生成器密度的 GAN。这项工作连接了三个研究社区,促进知识转移,有助于开发更稳定和可扩展的算法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈