OPID: 同策略技能蒸馏用于智能体强化学习

Hugging Face Daily Papers 论文

摘要

OPID提出了一种同策略技能蒸馏框架,从完成的轨迹中提取密集后见监督,将基于结果的强化学习与词元级自蒸馏相结合,以提高语言智能体在多轮任务上的训练效率和性能。

基于结果的强化学习为语言智能体提供了稳定的优化基础,但其稀疏的轨迹级奖励很少指导哪些中间决策应该被强化或抑制。同策略自蒸馏提供了密集的词元级监督,但现有的技能条件变体通常依赖外部技能记忆或检索到的特权上下文,这些维护成本高,并且可能与多轮交互中当前策略诱导的状态分布不匹配。我们提出OPID(同策略技能蒸馏),这是一个直接从完成的同策略轨迹中提取技能监督的框架。OPID将轨迹后见表示为层次化技能:回合级技能捕获全局工作流或避免失败规则,而步骤级技能捕获关键时间步的局部决策知识。一种关键优先路由机制在识别到关键决策时使用步骤级技能,否则回退到回合级技能作为默认指导。选中的技能被注入交互历史中,允许旧策略在原始上下文和技能增强上下文下对同一采样响应重新评分。由此产生的对数概率偏移产生词元级自蒸馏优势,与结果优势结合用于策略优化。因此,OPID保留了强化学习作为主要训练目标,同时引入了密集的、分布匹配的后见监督。在ALFWorld、WebShop和基于搜索的QA上的实验表明,与仅使用结果的强化学习和现有技能蒸馏基线相比,OPID通常提高了智能体性能、样本效率和鲁棒性。我们的代码可在 https://github.com/jinyangwu/OPID/tree/main 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/26 06:05

论文页面 - OPID:面向智能体强化学习的在策略技能蒸馏

来源:https://huggingface.co/papers/2606.26790

摘要

在策略技能蒸馏框架从已完成轨迹中提取密集的事后监督信号,以提升语言智能体训练效率与性能。

基于结果的强化学习为语言智能体提供了稳定的优化骨干,但其稀疏的轨迹级奖励难以指示哪些中间决策应被增强或抑制。在策略自蒸馏提供了密集的令牌级监督,然而现有的技能条件变体往往依赖外部技能记忆库或检索到的特权上下文,这些不仅维护成本高昂,还可能与多轮交互中当前策略诱导的状态分布不匹配。我们提出OPID(在策略技能蒸馏),一种直接从已完成在策略轨迹中提取技能监督的框架。OPID将轨迹事后信息表示为层次化技能:情节级技能捕捉全局工作流程或避免失败规则,而步骤级技能在关键时间步捕捉局部决策知识。一种关键优先路由机制在识别出关键决策时使用步骤级技能,否则默认使用情节级技能作为引导。选中的技能被注入交互历史,使得旧策略能够在原始上下文和技能增强上下文下对同一采样响应重新评分。由此产生的对数概率偏移形成令牌级自蒸馏优势,并与结果优势相结合用于策略优化。因此,OPID在将强化学习作为主要训练目标的同时,引入了密集且分布匹配的事后监督。在ALFWorld、WebShop和基于搜索的问答上的实验表明,OPID在智能体性能、样本效率和鲁棒性上普遍优于仅使用结果的强化学习及现有技能蒸馏基线。我们的代码可在 https://github.com/jinyangwu/OPID/tree/main 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2606.26790) 查看 PDF (https://arxiv.org/pdf/2606.26790) GitHub5 (https://github.com/jinyangwu/OPID) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.26790)

在您的智能体中获取这篇论文:

hf papers read 2606.26790

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型1个

Jinyang23/OPID-ALFWorld-1.7B 强化学习 • 2B • 约1小时前更新 (https://huggingface.co/Jinyang23/OPID-ALFWorld-1.7B)

引用本论文的数据集0个

没有链接本论文的数据集

请在数据集 README.md 中引用 arxiv.org/abs/2606.26790 以在此页面建立链接。

引用本论文的 Spaces0个

没有链接本论文的 Space

请在 Space README.md 中引用 arxiv.org/abs/2606.26790 以在此页面建立链接。

包含本论文的收藏集0个

没有包含本论文的收藏集

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以在此页面建立链接。

相似文章

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。