ReNIO:为LLM在线策略蒸馏重新加权负轨迹重要性

Hugging Face Daily Papers 论文

摘要

ReNIO通过基于token级概率比重新加权负轨迹来增强LLM的在线策略蒸馏,提升了数学和代码生成任务中的推理性能。

在线策略蒸馏(OPD)通过训练学生模型使用其自身生成的输出来提升LLM推理能力,但标准OPD对所有学生生成输出(SGOs)一视同仁,不考虑它们的信息量。我们在受控过滤实验中发现了一致的不对称性:在OPD和在线策略自蒸馏(OPSD)中,仅使用错误的SGOs进行训练的效果优于仅使用正确的SGOs。进一步分析表明,仅使用正确SGOs训练的模型倾向于生成更短的推理轨迹并表现出较弱的反思行为,而错误的SGOs能更好地保留接近模型能力边界的探索性推理。为了利用这一信号而不需要包含完整答案的展开,我们引入了ReNIO,它为LLM在线策略蒸馏重新加权负轨迹重要性。通过使用学生与教师的概率比,ReNIO识别导致错误推理轨迹的关键token,并将其信息聚合为归一化的样本权重,从而在没有观察到最终答案正确性的情况下,内在地为可能的负轨迹分配更大的权重。由于Re-NIO仅使用前缀条件化的token概率,它保留了OPD相对于完整展开强化学习的前缀训练优势。在数学推理和代码生成任务中,ReNIO同时提升了OPD和OPSD,在数学推理基准上,对于Qwen3-1.7B和R1-Distill-Qwen-7B分别获得了高达8.90%和10.00%的代表性相对提升。代码仓库:https://github.com/BDML-lab/ReNIO。
查看原文
查看缓存全文

缓存时间: 2026/06/25 13:12

论文页面 - ReNIO:为LLM在线策略蒸馏重新加权负轨迹重要性

来源:https://huggingface.co/papers/2606.23104

摘要

ReNIO通过基于词元级概率比重新加权负轨迹,增强了语言模型的在线策略蒸馏,提升了数学推理和代码生成任务的性能。

在线策略蒸馏(https://huggingface.co/papers?q=On-policy%20distillation)(OPD)通过训练学生模型(https://huggingface.co/papers?q=student%20model)在其自身生成的输出(https://huggingface.co/papers?q=generated%20outputs)上来改进LLM推理,但标准OPD对所有学生生成输出(https://huggingface.co/papers?q=generated%20outputs)(SGOs)一视同仁,不考虑它们的信息量。我们在受控过滤实验中观察到一种一致的不对称性:无论是在OPD还是在线策略自蒸馏(OPSD)中,仅训练错误的SGOs优于仅训练正确的SGOs。我们的进一步分析表明,仅在正确SGOs上训练的模型倾向于生成更短的推理轨迹(https://huggingface.co/papers?q=reasoning%20traces),并表现出较弱的反思行为,而错误的SGOs能更好地保留模型能力边界附近的探索性推理。为了利用这一信号而不需要包含完整答案的rollout,我们引入了ReNIO,它为LLM在线策略蒸馏(https://huggingface.co/papers?q=On-policy%20distillation)重新加权负轨迹的重要性。通过使用学生与教师概率比,ReNIO识别出导致错误推理轨迹(https://huggingface.co/papers?q=reasoning%20traces)的关键词元,并将其信息聚合为归一化的样本权重,从而在不观察最终答案正确性的情况下,内在地为可能的负轨迹分配更大的权重。由于ReNIO仅使用前缀条件下的词元概率,它保留了OPD在prefix训练上相对于全rollout强化学习的优势。在数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)和代码生成(https://huggingface.co/papers?q=code%20generation)任务中,ReNIO改进了OPD和OPSD,在数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)基准上,对于Qwen3-1.7B和R1-Distill-Qwen-7B分别取得了高达8.90%和10.00%的典型相对提升。代码仓库:https://github.com/BDML-lab/ReNIO。

查看arXiv页面(https://arxiv.org/abs/2606.23104)查看PDF(https://arxiv.org/pdf/2606.23104)GitHub1(https://github.com/BDML-lab/ReNIO)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23104)

在您的agent中获取此论文:

hf papers read 2606.23104

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到这篇论文

请在模型 README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。

引用此论文的数据集0

没有数据集链接到这篇论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。

引用此论文的Space0

没有Space链接到这篇论文

请在Space README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

通过近未来引导弥合在线蒸馏中的推理轨迹

arXiv cs.CL

本文指出了在线蒸馏大语言模型时token级监督的局限性,并提出TOPD方法,利用近未来轨迹信息更好地识别发散推理状态并将引导分布到多个token上,在AIME基准测试中取得了性能提升。

Trajectory-Refined Distillation

Hugging Face Daily Papers

Trajectory-Refined Distillation (TRD) 通过在蒸馏前在轨迹层面对学生模型的生成序列进行修正,解决了大语言模型(LLM)在同策略蒸馏中的前缀失败问题,在多项基准测试中持续优于先前基线方法。