标签
本文介绍了交互式逆向强化学习(IIRL),这是一个学习者通过与专家主动互动来推断奖励函数的框架,其形式化为随机双层优化问题。作者提出了 BISIRL 算法,为该交互式学习范式提供了收敛性保证和实验验证。
孟菲斯大学研究团队提出 HAMR——一种模型无关的元学习框架,通过双层优化与邻域感知重采样,在六个不平衡 NLP 数据集上自适应地为困难样本与少数类重新赋权。