OPID：面向智能体强化学习的在线策略技能蒸馏

arXiv cs.CL 2026/06/26 04:00 论文

摘要

OPID 是一个框架，它从完成的在线策略轨迹中提取密集的词元级监督信号，用于语言智能体的强化学习，通过分层技能（情节级和步骤级）来提高样本效率和鲁棒性。

arXiv:2606.26790v1 公告类型: 新摘要：基于结果的强化学习为语言智能体提供了稳定的优化基础，但其稀疏的轨迹级奖励对于哪些中间决策应该被强化或抑制提供的指导很少。在线策略自蒸馏提供了密集的词元级监督，然而现有的基于技能的方法常常依赖外部技能记忆或检索到的特权上下文，这在多轮交互中维护成本高，且可能与当前策略引发的状态分布不匹配。我们提出 **OPID**（**O**n-**P**olicy Sk**i**ll **D**istillation，在线策略技能蒸馏），这是一个直接从完成的在线策略轨迹中提取技能监督的框架。OPID 将轨迹后见之明表示为分层技能：情节级技能捕获全局工作流或失败避免规则，而步骤级技能捕获关键时间步上的局部决策知识。一种关键优先路由机制在识别出关键决策时使用步骤级技能，否则回退到情节级技能作为默认指导。选定的技能被注入交互历史中，允许旧策略在原始上下文中和技能增强上下文中对相同的采样响应重新评分。由此产生的对数概率偏移提供了词元级的自蒸馏优势，该优势与结果优势相结合用于策略优化。因此，OPID 保留了 RL 作为主要训练目标，同时引入了密集的、分布匹配的后见之明监督。在 ALFWorld、WebShop 和基于搜索的 QA 上的实验表明，与仅基于结果的 RL 和现有的技能蒸馏基线相比，OPID 通常能提高智能体的性能、样本效率和鲁棒性。我们的代码可在 https://github.com/jinyangwu/OPID/tree/main 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:19

# OPID：用于智能体强化学习的在线策略技能蒸馏  
来源：https://arxiv.org/html/2606.26790  
作者：Shuo Yang¹, Jinyang Wu¹¹¹, Zhengxi Lu², Yuhao Shen², Fan Zhang³, Lang Feng⁴, Shuai Zhang¹, Haoran Luo⁴, Zheng Lian⁵, Zhengqi Wen¹, Jianhua Tao¹  
1. 清华大学  
2. 浙江大学  
3. 香港中文大学  
4. 南洋理工大学  
5. 同济大学  
通讯作者：[email protected]  

###### 摘要  
基于结果的强化学习为语言智能体提供了稳定的优化基础，但其稀疏的轨迹级奖励无法提供关于中间决策应被强化或抑制的明确指导。在线策略自蒸馏提供了密集的令牌级监督，然而现有的技能条件变体通常依赖外部技能记忆或检索到的特权上下文，这些方法维护成本高，并且可能与多轮交互中当前策略所诱导的状态分布不匹配。我们提出了OPID（在线策略技能蒸馏），一个直接从已完成的在线策略轨迹中提取技能监督的框架。OPID将轨迹事后信息表示为分层技能：回合级技能捕捉全局工作流或避免失败的规则，而步骤级技能捕捉关键时间步的局部决策知识。一种关键优先的路由机制在识别出关键决策时使用步骤级技能，否则默认使用回合级技能作为指导。选定的技能被注入交互历史中，使旧策略能够在原始上下文和技能增强上下文下重新评分相同的采样响应。由此产生的对数概率偏移提供了一个令牌级自蒸馏优势，该优势与结果优势结合用于策略优化。因此，OPID保留了RL作为主要训练目标，同时引入了密集的、分布匹配的事后监督。在ALFWorld、WebShop和基于搜索的QA上的实验表明，OPID在智能体性能、样本效率和鲁棒性上普遍优于仅结果的RL和现有的技能蒸馏基线。我们的代码发布在https://github.com/jinyangwu/OPID/tree/main。  
参见图1：总体性能比较。我们将OPID与无训练提示方法、仅结果的RL以及技能蒸馏基线在ALFWorld、基于搜索的QA和WebShop上进行比较。OPID在ALFWorld和WebShop上取得了最强的平均性能，同时在基于搜索的QA上保持了竞争力。  

## 1 引言  
大型语言模型（LLMs）越来越多地被部署为交互式智能体，它们能够跨越长视界运行、调用工具、导航环境，并通过多轮观察来调整其行为（Jimenez et al., 2024 (https://arxiv.org/html/2606.26790#bib.bib10); Luo et al., 2025 (https://arxiv.org/html/2606.26790#bib.bib13); Wu et al., 2026a (https://arxiv.org/html/2606.26790#bib.bib12); Lu et al., 2026a (https://arxiv.org/html/2606.26790#bib.bib11)）。与单轮推理不同，智能体任务需要顺序决策，其后果可能只有在许多交互步骤之后才显现。这一设置涵盖了具体环境家庭、网页导航、搜索增强推理以及软件工程智能体（Shridhar et al., 2020 (https://arxiv.org/html/2606.26790#bib.bib19); Yao et al., 2022 (https://arxiv.org/html/2606.26790#bib.bib20); Jin et al., 2025 (https://arxiv.org/html/2606.26790#bib.bib21); Jimenez et al., 2023 (https://arxiv.org/html/2606.26790#bib.bib22)）。强化学习（RL）已成为这类智能体的自然后训练范式，因为它直接使用来自环境或验证器的任务级反馈来优化策略。特别是，基于结果的方法如GRPO（Shao et al., 2024 (https://arxiv.org/html/2606.26790#bib.bib1)）为在线策略展开提供了稳定的无评论家优化基础。  
尽管有效，基于结果的智能体RL仅提供粗略的监督（Zhang et al., 2025 (https://arxiv.org/html/2606.26790#bib.bib9)）。环境奖励通常是稀疏、延迟且高方差的：一个终端奖励可以指示一条轨迹是否成功，但无法说明哪些中间决策导致了该结果。这一限制在长视界交互中尤为严重（Chen et al., 2026 (https://arxiv.org/html/2606.26790#bib.bib7); Xu et al., 2026 (https://arxiv.org/html/2606.26790#bib.bib8)），因为一个早期的错误可能破坏整个回合，重复的无效动作会随时间累积，并且局部决策的影响可能要在若干轮之后才被观察到。因此，纯粹的结果驱动优化提供了稳定的任务级压力，但缺乏细粒度的决策级信用分配。  
在线策略蒸馏和自蒸馏提供了补充性的监督。它们并非仅依赖轨迹级奖励，而是通过在模型自身采样的输出上进行训练，同时使用辅助教师信号来提供令牌级指导（Gu et al., 2024a (https://arxiv.org/html/2606.26790#bib.bib26); Agarwal et al., 2024 (https://arxiv.org/html/2606.26790#bib.bib2)）。最近的自蒸馏方法通过比较同一策略在不同上下文下的表现（例如标准学生分支和特权教师分支）来消除对独立教师的需求（Zhao et al., 2026 (https://arxiv.org/html/2606.26790#bib.bib3); He et al., 2026 (https://arxiv.org/html/2606.26790#bib.bib4)）。在智能体RL中，这暗示了一种自然的分解：RL仍然是主要的优化基础，而自蒸馏则提供密集的令牌级塑造信号。最近的工作如SDAR遵循这一原则，将自蒸馏作为多轮智能体的受控辅助目标（Lu et al., 2026a (https://arxiv.org/html/2606.26790#bib.bib11)）。  
一种特别有希望的特权上下文形式是自然语言技能。技能条件自蒸馏通过过程性知识（如子目标分解、动作模板或行为规则）增强教师分支，并将由此产生的令牌级偏好蒸馏到策略中（Lu et al., 2026b (https://arxiv.org/html/2606.26790#bib.bib15); Wang et al., 2026 (https://arxiv.org/html/2606.26790#bib.bib16); Lu et al., 2026a (https://arxiv.org/html/2606.26790#bib.bib11)）。然而，现有的基于技能的方法通常依赖外部技能库、检索到的技能文件或维护的技能记忆。这种设计带来了两个挑战。首先，技能记忆需要非平凡的维护，包括技能插入、精炼、删除和检索。其次，检索到的技能可能与当前策略所诱导的状态分布不匹配。这种不匹配对于多轮智能体尤其成问题，因为与假定轨迹的微小偏差可能导致状态漂移，从而使原本有用的技能变得不可靠。  
基于这一观察，我们提出了OPID（在线策略技能蒸馏），一个从已完成的在线策略轨迹中提取事后技能并将其行为效果蒸馏回策略的框架。OPID将每条轨迹抽象为两个互补层次的自然语言技能：*回合级技能*，总结轨迹范围的全局工作流或避免失败的规则；以及*步骤级技能*，捕捉关键时间步的状态条件指导。这种层次结构反映了长视界决策制定中的粒度权衡。回合级技能广泛且稳定，但对于关键状态可能过于粗糙，而步骤级技能精确但稀疏且特定于状态。OPID通过*关键优先技能路由*来解决这一权衡：在识别出的关键时间步使用步骤级技能，否则回退到回合级技能。路由后的技能被注入智能体的交互历史中，使旧策略能够在原始上下文和技能增强上下文下重新评分相同的在线策略响应。由此产生的令牌级对数概率偏移形成了一个基于技能的自蒸馏优势，该优势与回合优势结合用于策略优化。因此，OPID保留了基于结果的RL作为主要目标，同时引入了密集的、在线策略的事后监督。在推理时，OPID不需要分析器、外部技能检索或特权上下文。  
我们在ALFWorld（Shridhar et al., 2020 (https://arxiv.org/html/2606.26790#bib.bib19)）、WebShop（Yao et al., 2022 (https://arxiv.org/html/2606.26790#bib.bib20)）和基于搜索的QA（Jin et al., 2025 (https://arxiv.org/html/2606.26790#bib.bib21)）上使用不同规模的模型对OPID进行了评估。在这些设置中，OPID在长视界智能体性能上优于仅结果的RL和技能蒸馏基线。这些结果表明，已完成的在线策略轨迹提供了有用的分布匹配事后监督源，使策略能够内化源自轨迹的技能，而无需在推理时依赖外部技能库或检索到的特权上下文。综合来看，我们的工作做出了以下贡献：  
- •我们提出了**在线策略事后技能提取**，将当前策略采样的已完成轨迹视为分布匹配的技能监督源，避免了对外部技能库或离线检索的需求。  
- •我们引入了**具有关键优先路由的分层事后技能**，其中回合级技能捕捉全局工作流或避免失败的规则，步骤级技能捕捉关键的局部决策，路由为每个轨迹步骤选择最具体的可用技能。  
- •我们将**基于技能的自蒸馏**集成到智能体RL中，将路由后的事后技能转化为密集的令牌级塑造信号，同时保持结果奖励优化作为主要训练目标。  
- •我们在长视界智能体基准上实证验证了OPID，显示出一致的改进，优于仅结果的RL和技能蒸馏基线，同时具有更好的样本效率以及减少的重复或无效行为。  

## 2 相关工作  
##### 用于智能体LLMs的强化学习。大型语言模型越来越多地被训练成交互式智能体，它们能够在长视界中运行、调用工具，并从环境或验证器中接收反馈（Shridhar et al., 2020 (https://arxiv.org/html/2606.26790#bib.bib19); Yao et al., 2022 (https://arxiv.org/html/2606.26790#bib.bib20); Jin et al., 2025 (https://arxiv.org/html/2606.26790#bib.bib21); Jimenez et al., 2023 (https://arxiv.org/html/2606.26790#bib.bib22); Wu et al., 2026c (https://arxiv.org/html/2606.26790#bib.bib14)）。因此，强化学习已成为一种自然的后训练范式，基于结果的方法如GRPO为在线策略展开提供了稳定的无评论家目标（Shao et al., 2024 (https://arxiv.org/html/2606.26790#bib.bib1)）。然而，智能体环境通常提供稀疏且延迟的奖励。一个终端结果可以指示轨迹是否成功，但无法识别哪些中间决策导致了成功或失败。OPID针对这一缺失的信用分配信号：它保持基于结果的RL作为优化基础，但通过从策略自身的已完成轨迹中提取密集的决策级监督来增强它。  
##### 在线策略自蒸馏。在线策略蒸馏在模型的自身采样输出上进行训练，同时使用辅助教师信号提供令牌级学习目标（Agarwal et al., 2024 (https://arxiv.org/html/2606.26790#bib.bib2); Gu et al., 2024a (https://arxiv.org/html/2606.26790#bib.bib26)）。最近的自蒸馏方法通过比较同一策略在不同上下文或反馈条件下的表现，进一步消除了对独立教师的需求（Zhao et al., 2026 (https://arxiv.org/html/2606.26790#bib.bib3); He et al., 2026 (https://arxiv.org/html/2606.26790#bib.bib4)）。对于多轮智能体，这暗示了一种有用的分解：RL提供任务级优化，而自蒸馏提供密集的塑造信号（Lu et al., 2026a (https://arxiv.org/html/2606.26790#bib.bib11)）。关键问题是特权信号应来自何处。现有方法通常依赖通用修订上下文、外部提示或任务级反馈变换。OPID则通过从在线策略轨迹中提取的事后技能来构建特权分支，使得蒸馏信号直接与当前策略遇到的状态、动作和失败相关联。  
##### 技能条件智能体学习。自然语言技能为智能体提供了紧凑的过程性知识，包括子目标分解、动作模板和避免失败的规则（Lu et al., 2026b (https://arxiv.org/html/2606.26790#bib.bib15); Wang et al., 2026 (https://arxiv.org/html/2606.26790#bib.bib16); Lu et al., 2026a (https://arxiv.org/html/2606.26790#bib.bib11); Wu et al., 2026b (https://arxiv.org/html/2606.26790#bib.bib6)）。现有的基于技能的方法通常依赖外部技能库、检索到的技能文件或持久的技能记忆。这些设计可以改善智能体行为，但它们引入了维护和检索成本，并且检索到的技能可能与当前策略所诱导的状态分布不匹配。这种不匹配在长视界交互中变得更加严重，因为小的偏差可能导致显著的状态漂移。OPID做出了不同的设计选择：它直接从已完成的在线策略轨迹中提取分层技能，根据决策关键性路由它们，并在训练期间将其行为效果蒸馏到策略中。因此，OPID提供了分布匹配的事后监督，而无需在推理时进行技能检索、分析器调用或特权上下文。  

## 3 方法  
我们将长视界智能体任务形式化为部分可观察的决策过程，并提出了OPID，一个将已完成的在线策略轨迹转换为分层技能并将其行为效果蒸馏回策略的框架。OPID分三个阶段进行在线策略技能蒸馏。首先，从已完成的在线策略轨迹中提取分层技能。其次，将合适的技能路由到每个决策步骤，并将技能效果转化为令牌级自蒸馏信号。第三，将这些令牌级技能优势与组相对结果优势结合，用于策略优化。图2 (https://arxiv.org/html/2606.26790#S3.F2) 展示了整体流程。  
参见图2：OPID概览。从已完成的在线策略轨迹开始，OPID提取分层事后技能，并将最相关的技能路由到每个决策，优先在关键状态使用步骤级技能。然后，策略在有和没有路由技能的情况下重新评分相同的采样响应，将令牌级的对数概率差异转化为密集的技能优势，以补充回合级RL信号。  

### 3.1 问题形式化  
我们将智能体任务建模为一个部分可观察的马尔可夫决策过程，定义为 \(S,A,O,T,R,γ\), \(\mathcal{S},\mathcal{A},\mathcal{O},\mathcal{T},\mathcal{R},\gamma\)，其中 \(\mathcal{S}\) 是潜在状态空间，\(\mathcal{A}\) 是动作空间，\(\mathcal{O}\) 是观测空间，\(\mathcal{T}: \mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S}\) 是转移函数，\(\mathcal{R}: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\) 是奖励函数，\(\gamma \in [0,1)\) 是折扣因子。在时间步 \(t\)，环境提供观察 \(o_t \in \mathcal{O}\)。

相似文章

OPID: 同策略技能蒸馏用于智能体强化学习

Hugging Face Daily Papers

OPID提出了一种同策略技能蒸馏框架，从完成的轨迹中提取密集后见监督，将基于结果的强化学习与词元级自蒸馏相结合，以提高语言智能体在多轮任务上的训练效率和性能。

OPRD：在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法，该方法在策略部署期间跨层对齐学生和教师的隐藏状态，消除了来自词空间KL估计的采样方差。实验表明，OPRD在数学推理基准（AIME 2024/2025、AIMO）上优于输出空间基线，同时速度快1.44倍，内存使用减少54%。

OISD: 语言模型的在策略内部自蒸馏

arXiv cs.LG

OISD是一种新的自蒸馏框架，通过在GRPO后训练期间将预测信号从最终层转移到中间层，使用logit和注意力对齐来提升语言模型推理能力。

OPD-Evolver：通过在线策略蒸馏培育整体智能体进化器

Hugging Face Daily Papers

OPD-Evolver 提出了一种自我进化智能体框架，采用慢-快协同进化与在线策略自蒸馏，以增强记忆管理和策略学习，在多个领域基准测试中优于 ReasoningBank 和 Skill0 等现有方法。

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文，按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

X AI KOLs Timeline

介绍 AwesomeOPD，一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。

相似文章

OPID: 同策略技能蒸馏用于智能体强化学习

OPRD：在策略表示蒸馏

OISD: 语言模型的在策略内部自蒸馏

OPD-Evolver：通过在线策略蒸馏培育整体智能体进化器

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文，按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

提交意见反馈