inverse-reinforcement-learning

#inverse-reinforcement-learning

信任域逆强化学习：利用局部策略更新进行显式对偶上升

arXiv cs.LG ↗ · 昨天缓存

本文介绍了信任域逆强化学习（TRIRL），这是一种结合了单调对偶改进与高效局部策略更新的方法，其性能优于最先进的模仿学习方法。该方法通过使用信任域约束，解决了逆强化学习中稳定性与计算成本之间的权衡问题。

0 人收藏 0 人点赞

#inverse-reinforcement-learning

通过双层优化实现交互场景的交互式逆向强化学习

arXiv cs.LG ↗ · 2天前缓存

本文介绍了交互式逆向强化学习（IIRL），这是一个学习者通过与专家主动互动来推断奖励函数的框架，其形式化为随机双层优化问题。作者提出了 BISIRL 算法，为该交互式学习范式提供了收敛性保证和实验验证。

0 人收藏 0 人点赞

#inverse-reinforcement-learning

利用逆强化学习进行多目标约束推断

arXiv cs.AI ↗ · 3天前缓存

本文介绍了 MOCI，这是一种新颖的框架，能够从强化学习中的异构专家演示中推断共享约束和个体偏好，在预测性能和计算效率方面均优于现有基线。

0 人收藏 0 人点赞

#inverse-reinforcement-learning

SPS：通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL ↗ · 2026-04-21 缓存

研究人员提出了 SPS（概率挤压引导），这是一种结合强化学习与逆强化学习的训练范式，旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹，导致探索空间受限及多样本性能（Pass@k）下降。在五个推理基准上的实验表明，该方法有效提升了模型的探索能力与 Pass@k 指标。

0 人收藏 0 人点赞

#inverse-reinforcement-learning

生成对抗网络、逆强化学习和基于能量模型之间的联系

OpenAI Blog ↗ · 2016-11-11 缓存

本文建立了生成对抗网络 (GAN)、逆强化学习 (IRL) 和基于能量的模型 (EBM) 之间的数学等价性，证明了某些 IRL 方法等价于具有可评估生成器密度的 GAN。这项工作连接了三个研究社区，促进知识转移，有助于开发更稳定和可扩展的算法。

0 人收藏 0 人点赞

inverse-reinforcement-learning

信任域逆强化学习：利用局部策略更新进行显式对偶上升

通过双层优化实现交互场景的交互式逆向强化学习

利用逆强化学习进行多目标约束推断

SPS：通过概率挤压引导实现大语言模型强化学习中的更优探索

生成对抗网络、逆强化学习和基于能量模型之间的联系

提交意见反馈