Self-Distilled Agentic Reinforcement Learning
摘要
SDAR通过将自蒸馏与Sigmoid门控相结合,有选择地增强正向令牌级引导,同时减轻负面教师拒绝的影响,从而增强多轮智能体训练,在多个基准测试中相较于GRPO取得了显著提升。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - Self-Distilled Agentic Reinforcement Learning
来源: https://huggingface.co/papers/2605.15155
摘要
SDAR 通过自蒸馏与 Sigmoid 门控机制的结合,增强了多轮智能体训练的强化学习效果。该机制能够选择性地强化正向 token 级别指导,同时减轻负面教师拒绝信号的影响。
强化学习(RL)已成为 LLM 智能体后训练的核心范式,但其基于轨迹级别的奖励信号对长程交互仅提供粗糙的监督。在策略上自蒸馏(OPSD)通过引入来自特权上下文增强的教师分支的密集 token 级别指导,对 RL 进行了补充。然而,将 OPSD 迁移到多轮智能体时会出现问题:复合的多轮不稳定性会破坏监督的稳定性,而技巧条件的特权指导需要不对称地处理可能源于技巧检索或利用不完善的负面教师拒绝。我们提出 SDAR(自蒸馏智能体强化学习),将 OPSD 视为一个带有门控的辅助目标,同时保持 RL 作为主优化骨干。SDAR 将解耦的 token 级别信号映射到 Sigmoid 门控中,从而强化教师认可的正向间隔 token 上的蒸馏,并柔和地减弱负面教师拒绝。在 Qwen2.5 和 Qwen3 系列模型上,针对 ALFWorld、WebShop 和 Search-QA 基准,SDAR 相比 GRPO 取得了显著提升(ALFWorld 上提升 9.4%,Search-QA 上提升 7.0%,WebShop-Acc 上提升 10.2%),避免了朴素 GRPO+OPSD 的不稳定性,并且在不同模型规模上一致优于混合 RL-OPSD 基线。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15155) 查看 PDF (https://arxiv.org/pdf/2605.15155) GitHub2 (https://github.com/ZJU-REAL/SDAR) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15155)
在你的智能体中获取此论文:
hf papers read 2605\.15155
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.15155 可将其链接至此页面。
引用此论文的数据集 0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.15155 可将其链接至此页面。
引用此论文的 Spaces 0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2605.15155 可将其链接至此页面。
包含此论文的合集 1
相似文章
Self-Distillation Zero:自我修订将二元奖励转化为密集监督
Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。
用于LLM推理的自适应教师暴露自蒸馏方法
自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。
通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习
本文介绍了反思增强自蒸馏(RESD)框架,该框架将失败反馈转化为对LLM的纠正性监督,从而实现从稀有成功中高效学习。该框架优于标准自蒸馏基线,并且相比GRPO,使用更少的样本实现了更快的早期改进。
在策略自蒸馏中尊重自不确定性以实现高效LLM推理
本文提出了EGRSD和CL-EGRSD,这是在策略自蒸馏方法,通过教师熵对令牌级监督进行加权,以改善大语言模型推理准确性-长度的权衡,并在Qwen3-4B和Qwen3-8B上进行了评估。
叛逆的学生:通过自蒸馏 RLVR 反转教师信号以进行推理探索
本文介绍了 RLRT,这是一种在自蒸馏过程中反转教师信号的方法,旨在强化学生模型成功的偏离行为,从而增强大语言模型的推理探索能力。