ReNIO:为LLM在线策略蒸馏重新加权负轨迹重要性
摘要
ReNIO通过基于token级概率比重新加权负轨迹来增强LLM的在线策略蒸馏,提升了数学和代码生成任务中的推理性能。
查看缓存全文
缓存时间: 2026/06/25 13:12
论文页面 - ReNIO:为LLM在线策略蒸馏重新加权负轨迹重要性
来源:https://huggingface.co/papers/2606.23104
摘要
ReNIO通过基于词元级概率比重新加权负轨迹,增强了语言模型的在线策略蒸馏,提升了数学推理和代码生成任务的性能。
在线策略蒸馏(https://huggingface.co/papers?q=On-policy%20distillation)(OPD)通过训练学生模型(https://huggingface.co/papers?q=student%20model)在其自身生成的输出(https://huggingface.co/papers?q=generated%20outputs)上来改进LLM推理,但标准OPD对所有学生生成输出(https://huggingface.co/papers?q=generated%20outputs)(SGOs)一视同仁,不考虑它们的信息量。我们在受控过滤实验中观察到一种一致的不对称性:无论是在OPD还是在线策略自蒸馏(OPSD)中,仅训练错误的SGOs优于仅训练正确的SGOs。我们的进一步分析表明,仅在正确SGOs上训练的模型倾向于生成更短的推理轨迹(https://huggingface.co/papers?q=reasoning%20traces),并表现出较弱的反思行为,而错误的SGOs能更好地保留模型能力边界附近的探索性推理。为了利用这一信号而不需要包含完整答案的rollout,我们引入了ReNIO,它为LLM在线策略蒸馏(https://huggingface.co/papers?q=On-policy%20distillation)重新加权负轨迹的重要性。通过使用学生与教师概率比,ReNIO识别出导致错误推理轨迹(https://huggingface.co/papers?q=reasoning%20traces)的关键词元,并将其信息聚合为归一化的样本权重,从而在不观察最终答案正确性的情况下,内在地为可能的负轨迹分配更大的权重。由于ReNIO仅使用前缀条件下的词元概率,它保留了OPD在prefix训练上相对于全rollout强化学习的优势。在数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)和代码生成(https://huggingface.co/papers?q=code%20generation)任务中,ReNIO改进了OPD和OPSD,在数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)基准上,对于Qwen3-1.7B和R1-Distill-Qwen-7B分别取得了高达8.90%和10.00%的典型相对提升。代码仓库:https://github.com/BDML-lab/ReNIO。
查看arXiv页面(https://arxiv.org/abs/2606.23104)查看PDF(https://arxiv.org/pdf/2606.23104)GitHub1(https://github.com/BDML-lab/ReNIO)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23104)
在您的agent中获取此论文:
hf papers read 2606.23104
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到这篇论文
请在模型 README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。
引用此论文的数据集0
没有数据集链接到这篇论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。
引用此论文的Space0
没有Space链接到这篇论文
请在Space README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
过滤后重加权:重新思考在线策略蒸馏中的优化粒度
介绍FiRe-OPD,一种用于大语言模型在线策略蒸馏的方法,它过滤低质量轨迹并应用软重加权来强调信息丰富的令牌,在强到弱、单教师和多教师设置中实现了改进的性能。
通过近未来引导弥合在线蒸馏中的推理轨迹
本文指出了在线蒸馏大语言模型时token级监督的局限性,并提出TOPD方法,利用近未来轨迹信息更好地识别发散推理状态并将引导分布到多个token上,在AIME基准测试中取得了性能提升。
Trajectory-Refined Distillation
Trajectory-Refined Distillation (TRD) 通过在蒸馏前在轨迹层面对学生模型的生成序列进行修正,解决了大语言模型(LLM)在同策略蒸馏中的前缀失败问题,在多项基准测试中持续优于先前基线方法。
偏离时回溯:缓解大语言模型推理蒸馏中的双重暴露偏差
本文介绍了一种名为Motab的新型大语言模型推理蒸馏流水线,通过动态监控学生生成并在偏离时回溯到安全状态并借助教师干预,同时缓解离策略和在线策略暴露偏差,取得了约3%的平均性能提升。
LARK:基于可学习性的轨迹选择方法用于高效推理蒸馏
LARK提出了一种基于可学习性的推理轨迹选择方法,用于大语言模型蒸馏。该方法采用可学习性因子和χ²正则化选择策略,平衡效率与泛化能力,在多个模型和任务上持续优于基线方法。