interactive-rl

标签

Cards List
#interactive-rl

从静态上下文到校准的交互式强化学习:通过对齐模拟器缓解多轮对话中的分布偏移

arXiv cs.AI · 2026-05-27 缓存

本文从理论上识别并缓解了多轮对话强化学习中的上下文分布偏移,提出了校准交互式RL,该框架将交互式RL与模拟器对齐相结合,以减少模拟到真实的差距并实现最先进的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈