ReNIO：为LLM在线策略蒸馏重新加权负轨迹重要性

Hugging Face Daily Papers 2026/06/22 00:00 论文

reweighting-negative-trajectories on-policy-distillation llm-reasoning mathematical-reasoning code-generation token-level-probabilities

摘要

ReNIO通过基于token级概率比重新加权负轨迹来增强LLM的在线策略蒸馏，提升了数学和代码生成任务中的推理性能。

在线策略蒸馏（OPD）通过训练学生模型使用其自身生成的输出来提升LLM推理能力，但标准OPD对所有学生生成输出（SGOs）一视同仁，不考虑它们的信息量。我们在受控过滤实验中发现了一致的不对称性：在OPD和在线策略自蒸馏（OPSD）中，仅使用错误的SGOs进行训练的效果优于仅使用正确的SGOs。进一步分析表明，仅使用正确SGOs训练的模型倾向于生成更短的推理轨迹并表现出较弱的反思行为，而错误的SGOs能更好地保留接近模型能力边界的探索性推理。为了利用这一信号而不需要包含完整答案的展开，我们引入了ReNIO，它为LLM在线策略蒸馏重新加权负轨迹重要性。通过使用学生与教师的概率比，ReNIO识别导致错误推理轨迹的关键token，并将其信息聚合为归一化的样本权重，从而在没有观察到最终答案正确性的情况下，内在地为可能的负轨迹分配更大的权重。由于Re-NIO仅使用前缀条件化的token概率，它保留了OPD相对于完整展开强化学习的前缀训练优势。在数学推理和代码生成任务中，ReNIO同时提升了OPD和OPSD，在数学推理基准上，对于Qwen3-1.7B和R1-Distill-Qwen-7B分别获得了高达8.90%和10.00%的代表性相对提升。代码仓库：https://github.com/BDML-lab/ReNIO。

查看原文

查看缓存全文

缓存时间: 2026/06/25 13:12

论文页面 - ReNIO：为LLM在线策略蒸馏重新加权负轨迹重要性

来源：https://huggingface.co/papers/2606.23104

摘要

ReNIO通过基于词元级概率比重新加权负轨迹，增强了语言模型的在线策略蒸馏，提升了数学推理和代码生成任务的性能。

在线策略蒸馏（https://huggingface.co/papers?q=On-policy%20distillation）(OPD)通过训练学生模型（https://huggingface.co/papers?q=student%20model）在其自身生成的输出（https://huggingface.co/papers?q=generated%20outputs）上来改进LLM推理，但标准OPD对所有学生生成输出（https://huggingface.co/papers?q=generated%20outputs）(SGOs)一视同仁，不考虑它们的信息量。我们在受控过滤实验中观察到一种一致的不对称性：无论是在OPD还是在线策略自蒸馏（OPSD）中，仅训练错误的SGOs优于仅训练正确的SGOs。我们的进一步分析表明，仅在正确SGOs上训练的模型倾向于生成更短的推理轨迹（https://huggingface.co/papers?q=reasoning%20traces），并表现出较弱的反思行为，而错误的SGOs能更好地保留模型能力边界附近的探索性推理。为了利用这一信号而不需要包含完整答案的rollout，我们引入了ReNIO，它为LLM在线策略蒸馏（https://huggingface.co/papers?q=On-policy%20distillation）重新加权负轨迹的重要性。通过使用学生与教师概率比，ReNIO识别出导致错误推理轨迹（https://huggingface.co/papers?q=reasoning%20traces）的关键词元，并将其信息聚合为归一化的样本权重，从而在不观察最终答案正确性的情况下，内在地为可能的负轨迹分配更大的权重。由于ReNIO仅使用前缀条件下的词元概率，它保留了OPD在prefix训练上相对于全rollout强化学习的优势。在数学推理（https://huggingface.co/papers?q=mathematical%20reasoning）和代码生成（https://huggingface.co/papers?q=code%20generation）任务中，ReNIO改进了OPD和OPSD，在数学推理（https://huggingface.co/papers?q=mathematical%20reasoning）基准上，对于Qwen3-1.7B和R1-Distill-Qwen-7B分别取得了高达8.90%和10.00%的典型相对提升。代码仓库：https://github.com/BDML-lab/ReNIO。

查看arXiv页面（https://arxiv.org/abs/2606.23104）查看PDF（https://arxiv.org/pdf/2606.23104）GitHub1（https://github.com/BDML-lab/ReNIO）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.23104）

在您的agent中获取此论文：

hf papers read 2606.23104

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到这篇论文

请在模型 README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。

引用此论文的数据集0

没有数据集链接到这篇论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。

引用此论文的Space0

没有Space链接到这篇论文

请在Space README.md 中引用 arxiv.org/abs/2606.23104 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）中以从此页面链接。

ReNIO：为LLM在线策略蒸馏重新加权负轨迹重要性

论文页面 - ReNIO：为LLM在线策略蒸馏重新加权负轨迹重要性

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

过滤后重加权：重新思考在线策略蒸馏中的优化粒度

通过近未来引导弥合在线蒸馏中的推理轨迹

Trajectory-Refined Distillation

偏离时回溯：缓解大语言模型推理蒸馏中的双重暴露偏差

LARK：基于可学习性的轨迹选择方法用于高效推理蒸馏

提交意见反馈