interactive-irl

标签

Cards List
#interactive-irl

通过双层优化实现交互场景的交互式逆向强化学习

arXiv cs.LG · 2026-05-12 缓存

本文介绍了交互式逆向强化学习(IIRL),这是一个学习者通过与专家主动互动来推断奖励函数的框架,其形式化为随机双层优化问题。作者提出了 BISIRL 算法,为该交互式学习范式提供了收敛性保证和实验验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈