Self-Distilled Agentic Reinforcement Learning

Hugging Face Daily Papers 论文

摘要

SDAR通过将自蒸馏与Sigmoid门控相结合,有选择地增强正向令牌级引导,同时减轻负面教师拒绝的影响,从而增强多轮智能体训练,在多个基准测试中相较于GRPO取得了显著提升。

强化学习(RL)已成为用于后训练LLM智能体的核心范式,但其轨迹级奖励信号仅为长期交互提供粗略监督。On-Policy Self-Distillation (OPSD) 通过引入来自特权上下文增强的教师分支的密集令牌级引导,对RL进行补充。然而,将OPSD迁移到多轮智能体被证明是有问题的:复合多轮不稳定性破坏了监督的稳定性,而技能条件化的特权引导需要对负面教师拒绝进行非对称处理,这些拒绝可能源于不完美的技能检索或利用。我们提出SDAR (Self-Distilled Agentic Reinforcement Learning),它将OPSD视为一个门控辅助目标,同时保持RL作为主要的优化骨干。SDAR将分离的令牌级信号映射到Sigmoid门控,增强教师认可的正差距令牌上的蒸馏,并柔和地减弱负面教师拒绝。在Qwen2.5和Qwen3系列上,在ALFWorld、WebShop和Search-QA上,SDAR相较于GRPO显著提升(ALFWorld上+9.4%,Search-QA上+7.0%,WebShop-Acc上+10.2%),避免了朴素GRPO+OPSD的不稳定性,并在不同模型规模上持续优于混合RL-OPSD基线。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - Self-Distilled Agentic Reinforcement Learning

来源: https://huggingface.co/papers/2605.15155

摘要

SDAR 通过自蒸馏与 Sigmoid 门控机制的结合,增强了多轮智能体训练的强化学习效果。该机制能够选择性地强化正向 token 级别指导,同时减轻负面教师拒绝信号的影响。

强化学习(RL)已成为 LLM 智能体后训练的核心范式,但其基于轨迹级别的奖励信号对长程交互仅提供粗糙的监督。在策略上自蒸馏(OPSD)通过引入来自特权上下文增强的教师分支的密集 token 级别指导,对 RL 进行了补充。然而,将 OPSD 迁移到多轮智能体时会出现问题:复合的多轮不稳定性会破坏监督的稳定性,而技巧条件的特权指导需要不对称地处理可能源于技巧检索或利用不完善的负面教师拒绝。我们提出 SDAR(自蒸馏智能体强化学习),将 OPSD 视为一个带有门控的辅助目标,同时保持 RL 作为主优化骨干。SDAR 将解耦的 token 级别信号映射到 Sigmoid 门控中,从而强化教师认可的正向间隔 token 上的蒸馏,并柔和地减弱负面教师拒绝。在 Qwen2.5 和 Qwen3 系列模型上,针对 ALFWorld、WebShop 和 Search-QA 基准,SDAR 相比 GRPO 取得了显著提升(ALFWorld 上提升 9.4%,Search-QA 上提升 7.0%,WebShop-Acc 上提升 10.2%),避免了朴素 GRPO+OPSD 的不稳定性,并且在不同模型规模上一致优于混合 RL-OPSD 基线。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15155) 查看 PDF (https://arxiv.org/pdf/2605.15155) GitHub2 (https://github.com/ZJU-REAL/SDAR) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15155)

在你的智能体中获取此论文:

hf papers read 2605\.15155

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.15155 可将其链接至此页面。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.15155 可将其链接至此页面。

引用此论文的 Spaces 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.15155 可将其链接至此页面。

包含此论文的合集 1

相似文章

Self-Distillation Zero:自我修订将二元奖励转化为密集监督

Hugging Face Daily Papers

Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。

用于LLM推理的自适应教师暴露自蒸馏方法

Hugging Face Daily Papers

自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。