interactive-rl

#interactive-rl

从静态上下文到校准的交互式强化学习：通过对齐模拟器缓解多轮对话中的分布偏移

arXiv cs.AI ↗ · 2026-05-27 缓存

本文从理论上识别并缓解了多轮对话强化学习中的上下文分布偏移，提出了校准交互式RL，该框架将交互式RL与模拟器对齐相结合，以减少模拟到真实的差距并实现最先进的性能。

0 人收藏 0 人点赞