OPID: 同策略技能蒸馏用于智能体强化学习
摘要
OPID提出了一种同策略技能蒸馏框架,从完成的轨迹中提取密集后见监督,将基于结果的强化学习与词元级自蒸馏相结合,以提高语言智能体在多轮任务上的训练效率和性能。
查看缓存全文
缓存时间: 2026/06/26 06:05
论文页面 - OPID:面向智能体强化学习的在策略技能蒸馏
来源:https://huggingface.co/papers/2606.26790
摘要
在策略技能蒸馏框架从已完成轨迹中提取密集的事后监督信号,以提升语言智能体训练效率与性能。
基于结果的强化学习为语言智能体提供了稳定的优化骨干,但其稀疏的轨迹级奖励难以指示哪些中间决策应被增强或抑制。在策略自蒸馏提供了密集的令牌级监督,然而现有的技能条件变体往往依赖外部技能记忆库或检索到的特权上下文,这些不仅维护成本高昂,还可能与多轮交互中当前策略诱导的状态分布不匹配。我们提出OPID(在策略技能蒸馏),一种直接从已完成在策略轨迹中提取技能监督的框架。OPID将轨迹事后信息表示为层次化技能:情节级技能捕捉全局工作流程或避免失败规则,而步骤级技能在关键时间步捕捉局部决策知识。一种关键优先路由机制在识别出关键决策时使用步骤级技能,否则默认使用情节级技能作为引导。选中的技能被注入交互历史,使得旧策略能够在原始上下文和技能增强上下文下对同一采样响应重新评分。由此产生的对数概率偏移形成令牌级自蒸馏优势,并与结果优势相结合用于策略优化。因此,OPID在将强化学习作为主要训练目标的同时,引入了密集且分布匹配的事后监督。在ALFWorld、WebShop和基于搜索的问答上的实验表明,OPID在智能体性能、样本效率和鲁棒性上普遍优于仅使用结果的强化学习及现有技能蒸馏基线。我们的代码可在 https://github.com/jinyangwu/OPID/tree/main 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2606.26790) 查看 PDF (https://arxiv.org/pdf/2606.26790) GitHub5 (https://github.com/jinyangwu/OPID) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.26790)
在您的智能体中获取这篇论文:
hf papers read 2606.26790
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型1个
Jinyang23/OPID-ALFWorld-1.7B 强化学习 • 2B • 约1小时前更新 (https://huggingface.co/Jinyang23/OPID-ALFWorld-1.7B)
引用本论文的数据集0个
没有链接本论文的数据集
请在数据集 README.md 中引用 arxiv.org/abs/2606.26790 以在此页面建立链接。
引用本论文的 Spaces0个
没有链接本论文的 Space
请在 Space README.md 中引用 arxiv.org/abs/2606.26790 以在此页面建立链接。
包含本论文的收藏集0个
没有包含本论文的收藏集
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以在此页面建立链接。
相似文章
OPID:面向智能体强化学习的在线策略技能蒸馏
OPID 是一个框架,它从完成的在线策略轨迹中提取密集的词元级监督信号,用于语言智能体的强化学习,通过分层技能(情节级和步骤级)来提高样本效率和鲁棒性。
OPRD:在策略表示蒸馏
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。
ATOD:面向多轮自主智能体的退火轮次感知在线策略蒸馏
本文介绍了ATOD,一种结合在线策略蒸馏和强化学习的混合在线蒸馏算法,用于在多轮任务中训练小型语言模型智能体,其特点是采用退火OPD-RL调度和轮次级分歧-不确定性重新加权,以改善密集监督。
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。