从静态上下文到校准的交互式强化学习:通过对齐模拟器缓解多轮对话中的分布偏移
摘要
本文从理论上识别并缓解了多轮对话强化学习中的上下文分布偏移,提出了校准交互式RL,该框架将交互式RL与模拟器对齐相结合,以减少模拟到真实的差距并实现最先进的性能。
arXiv:2605.26403v1 公告类型:新
摘要:研究界的一个长期目标是开发高度交互的基于LLM的对话代理。近期研究集中在基于固定离线日志(静态上下文RL)或使用基于提示的模拟器(交互式RL)优化策略。在这项工作中,我们从理论上证明这两种范式都从根本上受到上下文分布偏移的限制——即训练中观察到的对话历史与真实对话中遇到的对话历史之间的不匹配。这种偏移在每一轮中呈二次方累积,严重降低了对话质量。具体而言,我们将此偏移归因于两个不同的来源:(i) 策略引起的偏移,源于对静态历史而非自生成轨迹的训练;(ii) 模拟器引起的偏移,源于模拟行为与真实人类行为之间的差异。为应对这些挑战,我们提出校准交互式RL,这是一个统一框架,将交互式RL与模拟器对齐相结合。通过使模拟器与人类交互模式对齐,我们的方法缩小了模拟到真实的差距,并缓解了复合分布偏移。在多个对话任务上的实验证实了我们的理论分析:(i) 交互式RL通过缓解策略分布偏移显著优于静态上下文基线;(ii) 使用我们的对齐方法校准模拟器进一步弥合了模拟到真实的差距,从而获得了最先进的下游性能。
查看缓存全文
缓存时间: 2026/05/27 09:05
# 从静态上下文到校准交互式强化学习:通过对齐模拟器缓解多轮对话中的分布偏移 **来源:** https://arxiv.org/html/2605.26403 Xiaohua Wang, Jiakang Yuan¹, Zisu Huang, Muzhao Tian, Changze Lv, Kaitao Song, Chen Tao, Xiaoqing Zheng 复旦大学 [email protected] ###### 摘要 研究界长期以来的目标是开发高度交互的、基于大语言模型(LLM)的对话智能体。近期研究主要关注基于固定离线日志(静态上下文 RL)或基于提示的模拟器(交互式 RL)来优化策略。本文从理论上证明,这两种范式都受到**上下文分布偏移**的根本限制——即训练期间观察到的对话历史与真实对话中遇到的对话历史之间的不匹配。这种偏移在对话轮次中呈二次方累积,严重降低对话质量。具体而言,我们将此偏移归因于两个不同的来源:(i) **策略引起的偏移**,源于基于静态历史而非自生成轨迹进行训练;(ii) **模拟器引起的偏移**,源于模拟人类行为与真实人类行为之间的差异。为解决这些挑战,我们提出**校准交互式强化学习**(Calibrated Interactive RL),一个将交互式 RL 与模拟器对齐相结合的统一框架。通过将模拟器与真实人类交互模式对齐,我们的方法缩小了模拟-现实差距并缓解了累积分布的偏移。在多个对话任务上的实验证实了我们的理论分析:(i) 交互式 RL 通过缓解策略分布偏移,显著优于静态上下文基线;(ii) 使用我们的对齐方法校准模拟器,进一步弥合了模拟-现实差距,取得了最先进的下游性能。 ## 1 引言 研究界长期以来的目标是开发高度交互的、基于 LLM 的对话智能体,能够维持连贯、安全且目标导向的多轮对话(Li et al., 2025;Laban et al., 2025)。为推进这一目标,近期工作日益采用强化学习(RL)来使模型行为与人类偏好对齐(Ouyang et al., 2022;Bai et al., 2022a,b)。广义上,现有方法可大致分为两种主要范式:**静态上下文 RL**(Lee et al., 2023;Hong et al., 2023;Verma et al., 2022;Snell et al., 2022;Rafailov et al., 2023)和**交互式 RL**(Wu et al., 2025;Shani et al., 2024;Carta et al., 2023)。前者使用固定离线上下文(即序列化的对话历史)优化策略模型,无需生成前序轮次。而后者通过采用基于提示的用户模拟器来应对对话固有的动态特性,从而使智能体能够在一个闭环学习框架内进行多轮交互。 尽管这些方法初步取得了一些效果,但它们仍面临根本性限制,如表 1 所示。一方面,静态上下文方法破坏了强化学习所需的关键交互循环,从而削弱了对话智能体的交互能力。另一方面,虽然交互式方法试图弥合这一差距,但它们通常依赖基于提示的模拟器,这些模拟器无法捕捉真实用户输入中固有的随机性、歧义性和噪声。这种缺陷导致了显著的模拟-现实差距,最终损害了策略在真实场景中的适用性。 在本工作中,我们为应对这些挑战奠定了理论基础。我们正式证明,现有范式从根本上受到上下文分布偏移的限制——即训练期间观察到的对话历史与真实对话中遇到的对话历史之间的差异。我们表明,这种偏移在对话轮次中呈二次方累积,严重降低对话质量。具体而言,我们将此现象分解为两个不同的来源:(i) **策略引起的偏移**由固定离线历史与自生成轨迹之间的不匹配导致;(ii) **模拟器引起的偏移**源于基于提示的模拟器与真实人类行为之间的结构性差异。 为此,我们引入**校准交互式强化学习**(Calibrated Interactive RL),一个将交互式 RL 与对齐模拟器相结合的统一框架。具体来说,我们首先使用真实人类多轮交互数据进行监督微调(SFT)来对齐用户模拟器,使其能够捕捉真实的人类行为,例如寻求澄清、固执以及严格遵循目标。在此基础上,我们利用交互式 RL 在自生成轨迹上优化策略,从而明确应对策略引起的分布偏移,使智能体能够学习关键的纠错技能。 在实证方面,我们的分析表明,标准基于提示的模拟器表现出严重的行为伪影,最显著的是**谄媚(sycophancy)**——倾向于盲目接受智能体错误的输出或过早泄露真实信息。这实际上使 RL 交互循环变得微不足道,并不可避免地导致奖励黑客(reward hacking),即策略学会利用模拟器的宽容性而非解决实际任务。通过将模拟器视为可训练智能体并在高质量离线日志上执行行为克隆,我们的**模拟器对齐**框架将模拟严格建立在人类现实基础上。 实验结果表明,交互式 RL 始终优于静态上下文基线,且使用我们对齐模拟器进行训练带来了进一步的显著收益。这些结果强调了既需要闭合交互循环,又需要明确地将模拟建立在现实基础上的必要性。 我们的贡献总结如下: - 我们为多轮对话 RL 奠定了理论基础,揭示了现有 RL 方法中上下文分布偏移的根源,并数学上证明了这些偏移在轮次中呈二次方累积。 - 我们提出**校准交互式强化学习**,一个将交互式策略优化与模拟器对齐相结合的统一框架。我们引入了一种基于 SFT 的校准方法,将用户模拟器建立在真实人类行为分布上,消除了模拟伪影(例如谄媚),有效弥合了模拟-现实差距。 - 大量实验表明,交互式 RL 始终优于静态上下文基线。此外,明确校准模拟器带来了显著的额外收益,突显了通过将模拟建立在人类现实上来防止奖励黑客的关键重要性。 ## 2 相关工作 **表 1:多轮对话中强化学习范式的比较。** 我们将提出的校准交互式 RL 与现有的静态和交互式基线进行对比。我们的框架是唯一同时解决策略引起的偏移(\( \Delta_t \))和模拟器引起的偏移(\( \delta_t \))的方法。 | 范式 | 训练上下文 | 交互循环 | 模拟器保真度 | 主要局限(理论) | |------|------------|----------|--------------|------------------| | 静态上下文 RL | 离线日志(固定) | 开环 | 无 | 策略偏移(\( \Delta_t \)):错误二次方累积;无错误恢复训练 | | 交互式 RL | 在策略轨迹 | 闭环 | 未校准 | 模拟-现实差距(\( \delta_t \)):模拟器伪影(如谄媚)误导策略 | | **校准 RL(我们的方法)** | 在策略轨迹 | 闭环 | **对齐** | **无**:通过联合交互训练和模拟器对齐缓解两种偏移 | ### 2.1 多轮对话的强化学习 来自人类反馈的强化学习(RLHF)已确立为将 LLM 与人类意图对齐的基石(Ouyang et al., 2022;Bai et al., 2022a)。在对话系统的背景下,现有方法可大致分为**静态上下文 RL** 和**交互式 RL**。 **静态上下文 RL** 基于静态的离线对话日志优化策略(Shi et al., 2024;Hong et al., 2023;Snell et al., 2022)。例如,Charlie 等(Snell et al., 2022)将隐式 Q 学习应用于固定语言数据集。虽然对单轮指令跟随有效,但这些静态上下文方法遭受分布偏移以及无法纠正随轮次累积的生成错误——这是顺序决策中已知的局限(Levine et al., 2020)。 相比之下,**交互式 RL** 主要利用模拟器来闭合交互循环,使智能体能够从自己的生成轨迹中学习(Shani et al., 2024;Zhou et al., 2024)。例如,CollabLLM(Wu et al., 2025)利用基于提示的用户模拟器来训练智能体在在线协作轨迹上的表现。 与现有方法不同,我们从理论上证明现有方法存在训练上下文与真实对话上下文之间的分布偏移。此外,我们引入**校准交互式 RL**,通过使用判别器驱动的现实奖励来对齐用户模拟器,从而弥合模拟-现实差距。 ### 2.2 分布偏移与曝光偏差 在真实历史(即教师强制)上训练与在模型自身历史(即学生强制)上生成之间的差异是序列生成中的一个基本挑战,称为**曝光偏差**(Bengio et al., 2015;Ranzato et al., 2015)。在决策的背景下,这一现象与模仿学习中分析的分布偏移类似。Ross 等(Ross et al., 2011)证明,行为克隆(即离线训练)会导致误差随视界 \( H \) 呈二次方累积(\( O(H^2) \)),而交互式专家指导(即 Dagger)可将其降至线性增长。 虽然近期工作已在单轮推理链的背景下分析了这一偏移(Wang et al., 2023),但我们的工作将其正式扩展到多轮对话场景。我们推导出一个严格的界,说明静态上下文训练如何在长时间交互中无法泛化到由策略自身动作所诱导的动态分布。 ### 2.3 基于 LLM 的用户模拟器 使用基于 LLM 的模拟器作为人类用户的替代品,已成为可扩展评估和训练的显著趋势(Shi et al., 2019;Tseng et al., 2021;Hu et al., 2023;Gandhi et al., 2026)。Park 等(Park et al., 2023)证明,LLM 智能体可以模拟可信的社会行为,而自动化评估框架如 MT-Bench(Bai et al., 2024)和 AlpacaEval(Dubois et al., 2023)则利用 LLM 评判器来代理人类偏好。 在交互式训练领域,近期研究采用“自我对弈”或基于模拟器的 RL 来提高任务表现(Shao et al., 2023;Chen et al., 2024;Silver et al., 2017)。然而,未经校准的模拟器通常会表现出明显的伪影,例如“谄媚”(同意模型的错误)(Sharma et al., 2023)或不真实的角色一致性(Shanahan et al., 2023)。这些伪影可能被策略智能体在 RL 训练期间利用,导致**奖励黑客**(Wang 等,2025),即智能体优化模拟器的认可而非真正任务成功。 与使用现成 LLM 作为模拟器的先前工作不同,我们提出一个**模拟器对齐**框架,将模拟器视为可训练智能体,优化以最小化模拟-现实差距,从而确保交互式训练产生稳健的真实世界表现。 ## 3 多轮 RL 中的分布偏移 **图 1:多轮对话强化学习框架的比较。** (a) **伪多轮 RL** 使用静态离线对话日志优化策略,模型基于固定历史上下文进行条件动作生成而不生成前序轮次,导致分布偏移。(b) **真实多轮 RL(我们的方法)** 通过两阶段过程闭合交互循环:(1) 用户模拟器训练:模拟器与人类参考数据明确对齐,以最小化模拟器-人类差距;(2) 策略训练:智能体通过与对齐模拟器进行动态多轮交互来优化,确保对累积误差的鲁棒性。 在本节中,我们正式分析多轮对话训练中固有的分布偏移。我们推导出两个基本界,激励我们提出的**校准交互式 RL** 框架。首先,我们证明标准离线训练(即静态上下文 RL)由于策略偏差的累积,会引入一个有偏的目标函数。其次,我们证明,虽然交互式 RL 通过闭合交互循环解决了这一问题,但它依赖于模拟器的保真度,因为模拟器误差也会二次方累积。这些见解突显了我们的模拟器对齐方法的必要性。详细证明见附录 A。 ### 3.1 设置与符号 我们考虑一个有限视界 \( H \) 的回合制对话环境。令 \( s_t \in \mathcal{S} \) 表示环境状态,\( a_t \in \mathcal{A} \) 表示时间 \( t \) 时对话智能体的动作。一个历史 \( h_t = (s_0, a_0, \dots, s_t) \) 表示到时间 \( t \) 为止的轨迹。策略将历史映射到动作分布;我们记生成离线日志的行为策略为 \( \pi_{\text{data}} \),学习到的策略为 \( \pi \)。令 \( d_t^\pi(h) \) 为策略 \( \pi \) 在时间 \( t \) 诱导的历史边际分布。 为分析模拟差距,我们区分真实用户的转移动力学(记为算子 \( \mathcal{T}_{\text{real}} \))和用户模拟器的转移动力学(记为 \( \mathcal{T}_{\text{sim}} \))。我们假设奖励有界,即 \( |r(s,a)| \leq R_{\max} \)。目标是最大化有限视界收益 \( J(\pi) = \mathbb{E}_{\tau \sim p^\pi} \left[ \sum_{t=0}^{H-1} r_t \right] \)。
相似文章
超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。
CurveRL:面向LLM推理的基于分布感知的上下文权重调整原则性方法
本文介绍了CurveRL,一种基于原则的分布感知提示权重调整方法,用于带有可验证奖励的强化学习(RLVR),通过基于通过率的排名和密度而非绝对值来分配权重,从而改进LLM推理,持续优于GRPO及其他基线方法。
小型RL控制器与大型语言模型:RL引导的测试时自适应采样
本文将大型语言模型的自适应采样建模为马尔可夫决策过程,并训练一个轻量级强化学习控制器来平衡正确性、延迟和计算成本,从而实现了更好的权衡。
基于对比 LLM 微调对齐对话附和信号与语境表征
KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。
ICRL:通过强化学习内化自我批判
本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。