何时蒸馏与蒸馏什么:面向多轮智能体的选择性后见蒸馏

arXiv cs.AI 论文

摘要

本文首次系统研究了多轮LLM智能体中的信用分配问题,提出了SERL——一种选择性环境重加权学习框架。SERL利用环境反馈在因果相关动作上强化强化学习目标,在ALFWorld和WebShop上分别达到了90.0%和80.1%的成功率。

arXiv:2605.19447v1 公告类型:新 摘要:强化学习可以通过稀疏任务奖励训练LLM智能体,但长期信用分配仍然具有挑战性:单个成功或失败信号需要分配到多个动作上。现有方法依赖于轨迹级别的奖励或代理信号,未能充分利用每步的环境反馈。多轮智能体场景尚未得到充分探索,在这种场景中,反馈可能包括错误信息、页面变化、观察或参考轨迹。我们系统研究了五种反馈源和两种插入粒度,并提出了SERL——一种选择性环境重加权学习框架。SERL使用任务奖励来确定更新方向,而环境反馈则调整位置和幅度,聚焦于关键动作。在ALFWorld和WebShop上,SERL取得了90.0%和80.1%的成功率,优于强基线强化学习和蒸馏方法。分析表明,在关键点使用基于行动的、与动作相关的反馈始终优于无差别地使用更长或更丰富的上下文。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:29

# 何时蒸馏与蒸馏什么:面向多轮智能体的选择性事后知识蒸馏
来源: https://arxiv.org/html/2605.19447

Tianyi Lyu 同济大学 上海人工智能实验室
Yang Li 独立作者
Yichuan Ma 上海人工智能实验室 复旦大学
Peiji Li 上海人工智能实验室 复旦大学
Linyang Li† 上海人工智能实验室 复旦大学 香港中文大学
Qipeng Guo† 上海人工智能实验室 复旦大学
Dahua Lin 上海人工智能实验室 香港中文大学
Kai Chen 上海人工智能实验室 香港中文大学

###### 摘要

强化学习可以利用稀疏的任务奖励训练LLM智能体,但在长期交互任务中,信用分配仍然是瓶颈:单一的成功或失败信号必须分配给数十个动作,而其中大多数动作对结果没有因果影响。现有的智能体强化学习方法主要依赖轨迹级奖励或学习到的代理信号,未能充分利用环境自然产生的每一步反馈。基于蒸馏的方法已与强化学习结合用于单轮推理,但多轮智能体环境尚未被充分探索——而且两者存在根本性差异。在交互式环境中,反馈形式多样:失败动作后的错误消息、点击后的页面变化、导航后的新观察,甚至一条成功的参考轨迹。哪些信号对信用分配最有用,以及在一个长轨迹中应该在何处应用这些信号,仍然是开放性问题。我们首次系统性地研究了智能体强化学习中的这一设计空间,涵盖五种反馈来源和两种插入粒度。在研究发现指导下,我们提出SERL,一种选择性环境重加权学习框架,其核心原则是:*任务奖励决定更新方向,而环境反馈仅调整该更新的位置和幅度*。SERL使用一个条件于环境的教师模型,在RL目标上对关键动作进行选择性锐化,同时避免无约束蒸馏的不稳定性。在ALFWorld和WebShop上,SERL分别取得了90.0%90.0\\%和80.1%80.1\\%的成功率,优于强RL和蒸馏基线。我们的分析表明,有效的反馈并不简单地就是最丰富的反馈:在语义有意义的插入点使用基于环境的、与动作相关的信号,始终优于不加区分地使用更长或更多特权上下文。

††∗\*Equal contribution.  †††\\daggerCorresponding authors: Linyang Li ([email protected]), Qipeng Guo ([email protected]) ††Code is at: https://github.com/OliverLeeXZ/SERL

## 1 引言

大型语言模型越来越多地被部署为交互式智能体,用于浏览网页[webshop]、调用工具[toolrl]、解决软件工程任务[swebench]、执行机器学习工作流[mlebench,li2025opt]以及在具身环境中行动[alfworld]。强化学习是这些智能体的一种自然训练范式,因为许多任务在回合结束时提供可验证的成功信号。然而,核心困难不在于获得奖励,而在于*分配*奖励:典型的ALFWorld轨迹包含十几个动作,其中只有两三个以有意义的方式改变了环境,其余都是常规导航或格式化步骤。当GRPO[grpo]或类似的组相对方法将单一的轨迹级优势广播到每个token时,高杠杆决策和惰性接口token会收到相同的更新。更好的方差缩减技术可以缩小梯度噪声,但它们无法识别*哪个*决策导致了后续的成功或失败。

智能体环境已经包含一个密集的信号,原则上可以解决这个问题。在每个动作之后,环境会返回反馈——一条错误消息、一个更新的页面、一个改变的对象状态——这揭示了该特定决策的局部后果。这种每步反馈比单个回合结束奖励信息丰富得多,使其成为信用分配的自然基础。利用它的一种方法是让教师模型观察环境对每个动作的响应,并使用其token级概率沿着学生自身的 rollout 来监督学生。这种思想,即在线策略自蒸馏(OPSD)[opd],提供了密集的token级监督,但引入了一个新的风险:教师模型不可避免地会基于*特权*信息——动作后反馈、未来观察或成功的参考轨迹——进行条件化,而这些信息学生模型在决策时无法访问。因此,不加区分地模仿教师模型可能会将不可用的信息泄露到训练目标中,放大与任务成功无关的风格偏好,并随着学生策略漂移而破坏学习稳定性。

那么,问题不是*是否*使用环境反馈,而是*如何*使用。最近的两条工作线提供了部分答案:SDPO[sdpo]在策略目标中添加了蒸馏损失,而RLSD[rlsd]使用教师-学生概率差距来重加权RL更新。然而,两者主要在单轮推理任务中进行了研究,这些任务的反馈结构简单且统一。长期智能体训练引入了两个设计轴,这些方法没有解决。首先,*教师应该看到什么?*环境反馈从立即动作响应到完整未来轨迹或成功参考 rollout 不等;更丰富的上下文给教师更多信息,但也带来更多特权。其次,*反馈应该在哪里影响学习?*它可以在每个转换(步骤级)注入,或者仅在语义上有意义的状态变化(锚点级)注入;正确的粒度取决于原始信号的噪声和冗余程度。

我们首次系统性地研究了多轮智能体RL中的这一设计空间,在ALFWorld和WebShop上变化了五种反馈来源和两种插入粒度。该研究得出了一个明确的发现:有效的反馈并不简单地就是最丰富的反馈——在语义有意义的插入点使用基于环境的、与动作相关的信号,始终优于不加区分地使用更长或更多特权上下文。在该发现指导下,我们提出SERL,一种基于非对称原理的选择性环境重加权学习框架:*任务奖励决定更新方向;环境反馈仅调整该更新的位置和幅度。*一个条件于环境的教师模型对智能体自身的动作token进行有无事后反馈的评分;由此产生的对数概率差距被转换为对GRPO优势的一个有界、符号感知的重加权。蒸馏仅限于可执行的动作片段——推理和格式化token仍完全由奖励驱动的目标控制——并且教师信号在训练过程中会衰减,以防止后期特权信息泄露。

我们的贡献如下:
- •我们首次系统性地研究了长期LLM智能体RL中的环境反馈,分析了在不同反馈类型和两种插入粒度下,反馈的*来源*和*位置*如何共同影响训练稳定性和任务性能。
- •在该研究指导下,我们提出SERL,一个与GRPO兼容的目标函数,将特权事后信息转换为一个针对策略梯度更新的有界、动作级重加权,在提供密集信用分配的同时保持优化方向锚定于任务奖励。
- •在ALFWorld和WebShop上的实验表明,SERL分别取得了90.0%90.0\\%和80.1%80.1\\%的成功率,优于强RL和RL-蒸馏基线。我们的分析揭示,在语义有意义的插入点使用基于环境的、与动作相关的信号能够产生最强且最稳定的训练效果。

## 2 相关工作

**面向长期LLM智能体的强化学习。**强化学习已成为LLM的核心后训练工具,从RLHF[rlhf]到最近的用于推理和工具使用的可验证奖励训练[team2025kimi,guo2025deepseek,toolrl]。为了降低价值建模的成本,无评论家方法和组相对方法,如RLOO[rloo]、GRPO[grpo]、DAPO[yu2025dapo]和GSPO[gspo],通过从每个查询的多个样本中估计优势,实现了超越PPO[schulman2017proximal]的可扩展训练。这些方法在数学[guo2025deepseek]、逻辑[xie2025logic]和优化推理[npengine]中表现出色。随着LLM和RL算法能力的提升,LLM智能体在长期、动态和开放式环境中展现出巨大潜力,包括网页导航[webshop,appworld]、具身任务[alfworld]、搜索[searchr1]和软件工程[swebench]。这些长期任务为RL带来了新的挑战,因为成功往往依赖于多轮交互、延迟奖励和依赖环境的决策。最近的方法通过在多轮 rollout 上应用轨迹级GRPO[contextRL]或进行逐步策略优化[wang2025ragen]将策略优化扩展到智能体设置。GIGPO[gigpo]和HGPO[hgpo]进一步利用智能体轨迹的层次结构,估计动作、组或子轨迹上的优势以改善信用分配。然而,这些RL方法仍然未能充分利用智能体环境产生的丰富反馈,而这些反馈可以为指导LLM智能体训练提供重要信号。

**长期LLM智能体训练中的信用分配。**信用分配是智能体RL训练中的一个核心挑战。在GRPO[grpo]等方法中,验证器通常只提供序列级奖励,因此一个 rollout 中的每个 token 都接收到相同的优势,无论它反映的是关键决策还是风格填充。这对于LLM智能体来说尤其粗糙,因为最终的成功依赖于许多中间状态、动作、观察和工具交互。现有工作通过过程奖励、价值模型和中间评估器来改善信用粒度,这些为部分推理步骤或动作轨迹提供了更密集的监督[lightman,luo2024improve,stepmath,zhang2024generative,cui2025process]。其他方法使用 token 级代理,如熵、不确定性、注意力或结果敏感性来调整更新[cheng2026reasoning,seedgrpo,sun2025ktaemodelfreealgorithmkeytokens,li2025attention,chen2025beyond,li2026outcome]。虽然有效,但这些方法通常需要辅助模型、额外标签或与环境反馈仅有间接联系的代理信号。

在线策略蒸馏提供了另一种获得密集监督的方式。OPD[opd]使用更强的教师模型监督学生的在线策略轨迹并提供 token 级信号。然而,它需要额外的更强模型,这增加了计算成本并可能引入分布不匹配。相关的自蒸馏方法将教师条件化于学生模型和特权信号,如验证器反馈、未来上下文或正确轨迹[opsd,sdpo,sdft],但仍可能遭受特权信息泄露。SDPO[sdpo]和RLSD[rlsd]进一步将蒸馏信号与RL奖励结合以改善RL训练,同时保持更细粒度的信用分配。然而,这些方法主要在简单推理任务上研究,复杂多轮、长期的智能体任务仍未得到充分探索。

## 3 方法

参见标题图1:环境反馈引导的智能体强化学习流程。上半部分总结了仅用于训练的事后信号来源和放置选择。下半部分展示了SERL:放置后的反馈仅暴露给教师模型,教师将其转换为与奖励对齐的动作级信用,用于GRPO。

### 3.1 预备知识

#### 问题设置。
我们考虑一个多轮LLM智能体轨迹
τ=\(s0,a0,r0,s1,a1,r1,...,sT,aT,rT\) \\tau=\(s\_\{0\},a\_\{0\},r\_\{0\},s\_\{1\},a\_\{1\},r\_\{1\},\\ldots,s\_\{T\},a\_\{T\},r\_\{T\}\)  (1)
其中sts\_\{t\}是行动前的环境状态或观察,ata\_\{t\}是可执行动作,rtr\_\{t\}是执行ata\_\{t\}后返回的环境反馈。每个动作生成一个 token 序列at=\(yt,1,...,yt,Lt\)a\_\{t\}=\(y\_\{t,1\},\\ldots,y\_\{t,L\_\{t\}\}\)。令ht=\(s0,a0,r0,...,st\)h\_\{t\}=\(s\_\{0\},a\_\{0\},r\_\{0\},\\ldots,s\_\{t\}\)表示智能体产生ata\_\{t\}时可用的历史。

#### GRPO。
GRPO[grpo]在没有训练额外价值模型的情况下优化一组在线策略 rollout。对于一个任务实例,令\{τn\}n=1N\\\{\\tau^\{n\}\\\}\_\{n=1\}^\{N\}是从旧策略πθold\\pi\_\{\\theta\_\{\\mathrm\{old\}\}\}中采样的轨迹,具有结果奖励RnR^\{n\}。GRPO计算组相对优势
An=Rn−meanm⁡\(Rm\)stdm⁡\(Rm\)\+εA A^\{n\}=\\frac\{R^\{n\}-\\operatorname\{mean\}\_\{m\}\(R^\{m\}\)\}\{\\operatorname\{std\}\_\{m\}\(R^\{m\}\)\+\\epsilon\_\{A\}\}  (2)
在长期智能体训练中,这个由奖励衍生的信号通常广播到轨迹中的许多 token。我们写作AtA\_\{t\}分配给动作步tt的优势;对于标准轨迹级GRPO,轨迹τn\\tau^\{n\}中的所有步At=AnA\_\{t\}=A^\{n\}。对于 token yt,iy\_\{t,i\},策略比率为ρt,i\(θ\)=πθ\(yt,i∣ht,yt,t\\tau\_\{\>t\},成功轨迹τ\+\\tau^\{\+\},当前轨迹τ≤t\\tau\_\{\\leq t\},或它们的组合;附录A (https://arxiv.org/html/2605.19447#A1)提供了详细分类。学生模型在决策时从不接收此事后信息。一个放置操作符选择教师看到的内容:
Φ\(t\)=Place⁡\(F,t\) \\Phi\(t\)=\\operatorname\{Place\}\(\\mathcal\{F\},t\)  (6)
其中Φ\(t\)\\Phi\(t\)是在评分步tt的采样动作时使用的反馈。该公式允许同一来源支持不同的信用分配粒度。

#### 步骤级。
最密集的选项是将反馈附加到每个转换:
Φstep\(t\)=Ft \\Phi\_\{\\mathrm\{step\}\}\(t\)=\\mathcal\{F\}\_\{t\}  (7)
教师根据局部事后信息对每个动作 token 进行评分:πT\(⋅∣ht,yt,0\\Delta\_\{t,i\}\>0,采样 token 在教师观察到事后信息后变得更合理。由于该信号也可能反映特权上下文或教师风格,我们仅用它来调整奖励驱动更新的幅度:
wt,i=clip⁡\(exp⁡\(sgn⁡\(At\)stopgrad⁡\(Δt,i\)\),wmin,wmax\) w\_\{t,i\}=\\operatorname\{clip\}\\left\(\\exp\\left\(\\operatorname\{sgn\}\(A\_\{t\}\)\\operatorname\{stopgrad\}\(\\Delta\_\{t,i\}\)\\right\),w\_\{\\min\},w\_\{\\max\}\\right\)  (10)
GRPO优势的符号决定了教师证据如何被解释。对于正优势动作,教师支持的 token 获得更大的更新。对于负优势动作,教师支持的 token 受到较轻的惩罚,而教师不支持的 token 则受到更强的惩罚。裁剪防止噪声事后概率主导奖励学习,而停止梯度使教师信号保持为系数而非隐藏的辅助目标。

我们进一步将此重加权限制在可执行动作 token。令mt,iact∈\{0,1\}m^\{\\mathrm\{act\}\}\_\{t,i\}\\in\\\{0,1\\\}指示 token yt,iy\_\{t,i\}是否属于动作片段。我们设置
w ̄t,i=mt,iactwt,i\+\(1−mt,iact\) \\bar\{w\}\_\{t,i\}=m^\{\\mathrm\{act\}\}\_\{t,i\}w\_\{t,i\}+\(1-m^\{\\mathrm\{act\}\}\_\{t,i\}\)  (11)
因此推理和格式化 token 保持原始GRPO权重。这将事后信息集中在可执行决策上,其中环境反馈与任务成功的因果联系最紧密。

最终的 token 优势为
A~t,i=At\(\(1−αk\)\+αkw ̄t,i\) \\widetilde\{A\}\_\{t,i\}=A\_\{t\}\\left\(\(1-\\alpha\_\{k\}\)+\\alpha\_\{k\}\\bar\{w\}\_\{t,i\}\\right\)  (12)
其中αk∈\[0,1\]\\alph

相似文章

HINT-SD: 面向长程智能体的目标性事后自我蒸馏

Hugging Face Daily Papers

HINT-SD 提出了一种目标性自我蒸馏框架,该框架从完整轨迹中选择与失败相关的动作,以改进长程 LLM 智能体的训练,相比密集反馈基线,性能提升高达 18.80%,训练速度提升 2.26 倍。

用于LLM推理的自适应教师暴露自蒸馏方法

Hugging Face Daily Papers

自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。