interactive-irl

#interactive-irl

通过双层优化实现交互场景的交互式逆向强化学习

arXiv cs.LG ↗ · 2026-05-12 缓存

本文介绍了交互式逆向强化学习（IIRL），这是一个学习者通过与专家主动互动来推断奖励函数的框架，其形式化为随机双层优化问题。作者提出了 BISIRL 算法，为该交互式学习范式提供了收敛性保证和实验验证。

0 人收藏 0 人点赞