bi-level-optimization

#bi-level-optimization

通过双层优化实现交互场景的交互式逆向强化学习

arXiv cs.LG ↗ · 2026-05-12 缓存

本文介绍了交互式逆向强化学习（IIRL），这是一个学习者通过与专家主动互动来推断奖励函数的框架，其形式化为随机双层优化问题。作者提出了 BISIRL 算法，为该交互式学习范式提供了收敛性保证和实验验证。

0 人收藏 0 人点赞

#bi-level-optimization

arXiv cs.CL ↗ · 2026-04-22 缓存

孟菲斯大学研究团队提出 HAMR——一种模型无关的元学习框架，通过双层优化与邻域感知重采样，在六个不平衡 NLP 数据集上自适应地为困难样本与少数类重新赋权。

0 人收藏 0 人点赞