ATOD:面向多轮自主智能体的退火轮次感知在线策略蒸馏

arXiv cs.AI 论文

摘要

本文介绍了ATOD,一种结合在线策略蒸馏和强化学习的混合在线蒸馏算法,用于在多轮任务中训练小型语言模型智能体,其特点是采用退火OPD-RL调度和轮次级分歧-不确定性重新加权,以改善密集监督。

arXiv:2606.27814v1 公告类型:新论文 摘要:训练小型语言模型智能体以处理长期交互任务,既需要快速模仿,也需要奖励驱动的改进。在线策略蒸馏(OPD)提供密集的教师指导,通常在早期阶段快速提升,但一旦学生接近教师,其收益就会饱和,从而限制了最终性能上限。强化学习(RL)直接优化环境奖励,并鼓励探索性改进以达到更高的奖励定义上限,但稀疏且延迟的反馈使得早期学习效率远低于OPD。在本文中,我们提出了ATOD(退火轮次感知在线策略蒸馏),一种明确利用这种互补性的混合在线蒸馏算法。(1) ATOD采用退火OPD-RL调度:早期训练以OPD为主,以接近教师水平的行为,而RL逐渐增强,以驱动基于奖励的探索。(2) ATOD引入了轮次级分歧-不确定性重新加权(T-DUR),该机制软性地放大高效用轮次,并改善长轨迹中的密集监督。在ALFWorld、WebShop和Search-QA上的实验表明,ATOD持续优于竞争性的后训练基线:在三种学生规模上,ATOD相较于OPD平均成功率提升3.03个百分点,相较于GRPO提升23.62个百分点,同时超越相应教师模型2.16个百分点。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:27

# ATOD: 退火回合感知在线策略蒸馏——面向多轮自主智能体

来源: https://arxiv.org/html/2606.27814
Qitai Tan¹,²  Zefang Zong¹  Yang Li¹  Peng Chen¹  
¹腾讯公司  ²清华大学  
[email protected]  
{willzong,thomasyngli}@tencent.com  

###### 摘要

训练面向长时交互任务的小型语言模型智能体,既需要快速模仿,也需要奖励驱动的持续改进。在线策略蒸馏(OPD)提供了密集的教师引导,在早期阶段通常能快速提升,但一旦学生接近教师水平,收益便会饱和,从而限制了最终的性能天花板。强化学习(RL)直接优化环境奖励,鼓励探索性改进以朝向更高的奖励天花板,但稀疏且延迟的反馈使得早期学习效率远低于OPD。本文提出**ATOD**(退火回合感知在线策略蒸馏),一种显式利用这种互补性的混合在线蒸馏算法。(1) ATOD采用**退火OPD–RL调度**:早期以OPD为主,逼近教师级行为;随后逐步增强RL,驱动基于奖励的探索。(2) ATOD引入了**回合级分歧‑不确定性重加权**(T‑DUR),该机制能软性地放大高价值回合的权重,改善长轨迹中的密集监督。在ALFWorld、WebShop和Search-QA上的实验表明,ATOD始终优于各对比的后训练基线:在三种学生模型规模上,ATOD相较OPD的平均成功率提升3.03个百分点,相较GRPO提升23.62个百分点,同时超过对应的教师模型2.16个百分点。

参见图1:Qwen3-1.7B在ALFWorld、Search-QA和WebShop上的综合性能。

## 1 引言

语言智能体将大语言模型从静态文本生成扩展至交互式决策,模型必须观察状态、选择动作、调用工具并在多轮中调整计划[1, 2]。这种能力使LLM能够应用于具身指令跟随、网页购物、搜索增强的问答、代码执行及其他现实任务[3, 4, 5]。然而,强大的智能体行为通常集中在大型模型中,其推理开销和部署成本在延迟敏感、隐私敏感和资源受限的场景中并不理想。因此,一个实际的目标是将多轮智能体能力从较强的教师模型迁移到较小的学生模型,同时仍允许学生通过奖励驱动的方式实现超越纯模仿的改进。

强化学习(RL)已被广泛用于语言智能体的后训练。它通过环境定义的奖励来优化策略,通常采用PPO或GRPO式的策略优化[6, 7, 8, 9],近期面向智能体的变体将该思路扩展到长时交互[10, 11, 12, 13]。更近期,在线策略蒸馏(OPD)成为另一种有前景的范式:它在学生自身采样的轨迹上训练学生,同时使用较强教师的词元级分布作为密集监督[14, 15, 16, 17, 18, 19]。

然而,在多轮智能体训练中,RL和OPD呈现出互补的权衡关系。RL直接追求环境奖励,并能在模仿之外持续改进,但稀疏延迟的反馈使得小型智能体的早期探索效率低下。OPD提供密集的词元级引导,能快速启动学习,但强模仿容易在教师附近饱和,并抑制有助于奖励提升的偏离行为。这催生了退火OPD–RL调度:早期以OPD为主,逼近教师级行为;随后逐步增强RL,驱动基于奖励的探索。图2(a)中的验证动态展示了这种互补性:OPD提升迅速但很快饱和,GRPO在稀疏奖励下增长缓慢,而退火混合方法既保留了快速启动,又达到了更高的天花板。

参见图2(a) ATOD、OPD和GRPO的训练动态。  
参见图2(b) T‑DUR回合效用加权。

图2: ATOD的动机。(a) 与OPD和GRPO相比,ATOD保留了OPD的快速启动,同时避免了OPD的平台期和GRPO在稀疏奖励下的缓慢学习。(b) T‑DUR利用教师–学生分歧和学生熵,为高价值回合分配更大权重。

第二个挑战涉及在长智能体轨迹中何处应用密集教师监督。在多轮智能体任务中,不同回合可能具有非常不同的学习价值:先前的智能体OPD研究表明,回合间的错误累积会将后续状态推出教师的可靠支持范围,使得均匀的轨迹级监督不稳定,因此蒸馏强度应在步骤级进行自适应调整[20, 21]。同时,OPD中的词元重要性研究表明,学生的不确定性和教师–学生分歧能够识别出信息量大的蒸馏位置[22, 16]。我们因此将这些思想从词元层面提升至回合层面,因为回合是智能体轨迹的自然决策单元。如图2(b)所示,熵和分歧在各回合间变化显著;T‑DUR从采样词元的对数概率中估计这些信号,避免了对教师完整词汇表的采样,同时有效地将更大的OPD权重分配给高价值决策回合。

我们提出ATOD,即*退火回合感知在线策略蒸馏*,通过退火OPD–RL调度和回合级分歧‑不确定性重加权(T‑DUR)来解决这两个挑战,如图3所示。这些组件共同改善了早期收敛性,稳定了密集监督,并提升了奖励驱动的性能天花板。我们的贡献有三方面:

- • 我们引入了面向多轮智能体训练的退火OPD–RL训练目标。通过让OPD在早期占主导、RL在后期占主导,ATOD解决了稀疏奖励RL的冷启动低效率问题,同时保留了在纯教师模仿之外通过奖励驱动的改进能力。
- • 我们提出了面向智能体OPD的回合级分歧‑不确定性重加权(T‑DUR),一种软性的蒸馏加权机制。T‑DUR从学生不确定性和教师–学生分歧中估计回合级蒸馏效用,减少对常规回合的无效监督,突出高价值决策点。
- • 我们在ALFWorld、WebShop和Search-QA上,针对多种学生模型规模验证了ATOD。ATOD始终优于各对比后训练基线,相对于OPD和GRPO均有提升,并且能够超越相应的教师模型。

参见图3:ATOD概览。(a) 退火引导从教师引导的快速启动过渡到奖励驱动的探索。(b) T‑DUR使用分歧和不确定性对关键回合进行上加权,奖励保持不变。

## 2 相关工作

#### 语言智能体与工具集成推理。

语言智能体将推理与行动相结合,使LLM能够与工具、环境和外部反馈进行交互[1, 2]。ALFWorld、WebShop和搜索增强QA等基准测试要求在部分可观察和延迟奖励条件下进行多步决策[3, 4, 5]。这些设置与单轮文本生成不同,因为错误可以在回合间传播,且许多动作是常规性的,而少数则是决定性的。

#### 面向语言模型的强化学习。

策略优化方法,包括PPO和GRPO,已被广泛用于改进语言模型的推理和对齐[6, 7, 8, 9]。面向智能体的特定RL方法进一步通过层次化多轮优化、在线课程学习、组内组信用分配和自适应探索,来解决长时交互问题[10, 11, 12, 13]。GRPO具有吸引力,因为它在采样组内估计相对优势,无需单独的价值模型。然而,在长时智能体任务中,稀疏的终端奖励和高方差探索可能使得纯RL效率低下,尤其是对于小模型而言。

#### 在线策略蒸馏。

OPD在学生自身生成的轨迹上训练学生,同时使用教师分布作为密集监督[14, 15]。这减少了离线有监督蒸馏的训练‑测试不匹配,并提高了样本效率。近期的OPD变体在稳定性、上下文迁移、熵处理或教师上限行为方面进行了改进[16, 18, 17, 19]。对于使用工具或多轮智能体,近期工作探索了步骤级、时间级、自蒸馏、技能条件或重要性感知的蒸馏方法,以减轻不可靠或冗余的教师信号[21, 20, 23, 24, 25, 22]。ATOD具有互补性:它通过动态调度将OPD与奖励驱动的GRPO相结合,并使用T‑DUR对蒸馏组件进行软性门控。

## 3 预备知识

### 3.1 多轮智能体轨迹

我们考虑对小型语言模型智能体进行后训练,以处理多轮交互任务。给定输入 \(x\),学生策略 \(\pi_\theta\) 与外部反馈交互,共 \(K\) 步。在第 \(k\) 步,模型生成响应 \(a_k\),其中可能包含推理、环境动作或工具调用,或最终答案。如果执行了外部动作,观察结果 \(o_k\) 会被附加到上下文中,并影响后续生成。一条轨迹定义为  
\[
\tau = (x, a_1, o_1, \ldots, a_K, o_K, a_{K+1}),
\qquad (1)
\]  
其中 \(a_{K+1}\) 表示最终响应。策略仅生成模型词元,而观察结果由环境提供。令 \(a_t\) 表示生成的词元,\(s_t\) 为其前缀上下文,该上下文可能同时包含先前模型输出和环境观察结果。

### 3.2 组相对策略优化

组相对策略优化(GRPO)是一种强化学习算法,通过一组采样轨迹内的相对奖励来更新策略[7]。我们假设有一个定义在完整轨迹上的结果级奖励函数 \(R(\tau)\)。对于每个输入 \(x\),从旧策略 \(\pi_{\theta_{\mathrm{old}}}\) 中采样一组轨迹 \(\{\tau_i\}_{i=1}^G\),每条轨迹获得奖励 \(r_i = R(\tau_i)\)。组相对优势计算为  
\[
\hat{A}_i^{\mathrm{GRPO}} = \frac{r_i - \mathrm{mean}(\{r_j\}_{j=1}^G)}{\mathrm{std}(\{r_j\}_{j=1}^G) + \epsilon_A}.
\qquad (2)
\]  
令  
\[
\eta_{i,t}(\theta) = \frac{\pi_\theta^\theta (a_{i,t} \mid s_{i,t})}{\pi_{\theta_{\mathrm{old}}} (a_{i,t} \mid s_{i,t})}
\qquad (3)
\]  
表示词元级重要性比率。GRPO目标为  
\[
\mathcal{L}_{\mathrm{GRPO}}(\theta) = -\mathbb{E}_x \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|\mathcal{T}_i|} \sum_{t \in \mathcal{T}_i} \min \left( \eta_{i,t}(\theta) \hat{A}_i^{\mathrm{GRPO}},\; \mathrm{clip}(\eta_{i,t}(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i^{\mathrm{GRPO}} \right) \right],
\qquad (4)
\]  
其中 \(\mathcal{T}_i\) 表示轨迹 \(\tau_i\) 中由模型生成词元的位置。等价地,\(\tau_i\) 中每个生成词元 \(a_t\) 得到优势 \(A_t^{\mathrm{GRPO}} = \hat{A}_i^{\mathrm{GRPO}}\)。该目标基于相对轨迹性能提供了在线策略学习信号,但依赖稀疏的结果级奖励。

### 3.3 在线策略蒸馏

在线策略蒸馏(OPD)是一种后训练范式,通过在学生生成的轨迹上对齐学生策略与冻结的教师分布,提供密集的词元级监督[14, 15]。给定从旧学生策略中采样的轨迹 \(\{\tau_i\}_{i=1}^G\),OPD目标可以写为  
\[
\mathcal{L}_{\mathrm{OPD}}(\theta) = \mathbb{E}_x \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|\mathcal{T}_i|} \sum_{t \in \mathcal{T}_i} \eta_{i,t}(\theta) \left( \log \pi_\theta^\theta (a_{i,t} \mid s_{i,t}) - \log \pi_{\mathrm{T}} (a_{i,t} \mid s_{i,t}) \right) \right],
\qquad (5)
\]  
其中 \(\mathcal{T}_i\) 表示轨迹 \(\tau_i\) 中由模型生成词元的位置,\(\eta_{i,t}(\theta)\) 是与公式(3)相同的重要性比率。该目标是学生策略与教师策略在学生访问状态上的反向KL散度的采样估计。等价地,对于生成词元 \(a_t\),OPD提供词元级蒸馏信号  
\[
\Delta \log p_t = \log \pi_{\mathrm{T}}(a_t \mid s_t) - \log \pi_\theta (a_t \mid s_t),
\qquad (6)
\]  
当教师对学生词元的赋值更高时该信号为正。

相似文章

OPID: 同策略技能蒸馏用于智能体强化学习

Hugging Face Daily Papers

OPID提出了一种同策略技能蒸馏框架,从完成的轨迹中提取密集后见监督,将基于结果的强化学习与词元级自蒸馏相结合,以提高语言智能体在多轮任务上的训练效率和性能。

Trust Region On-Policy Distillation

Hugging Face Daily Papers

本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。