Trajectory-Refined Distillation
摘要
Trajectory-Refined Distillation (TRD) 通过在蒸馏前在轨迹层面对学生模型的生成序列进行修正,解决了大语言模型(LLM)在同策略蒸馏中的前缀失败问题,在多项基准测试中持续优于先前基线方法。
查看缓存全文
缓存时间: 2026/06/09 08:42
论文页面 - Trajectory-Refined Distillation
来源:https://huggingface.co/papers/2606.08432
发表于 6月7日
·
提交者:https://huggingface.co/Louieworth
Jiang (https://huggingface.co/Louieworth) 于 6月9日
摘要
同策略蒸馏(On-policy distillation)存在前缀失败(prefix failure)问题,即密集的token级监督会产生碎片化梯度;轨迹精炼蒸馏(trajectory-refined distillation)通过在进行蒸馏前,在轨迹层面对学生模型的自生轨迹进行修正来解决这一问题。
同策略蒸馏(https://huggingface.co/papers?q=On-policy%20distillation)(OPD)已成为大型语言模型(https://huggingface.co/papers?q=large%20language%20models)(LLMs)核心的后训练工具,提供沿着学生自身生成路径的密集逐token教师监督。在这项工作中,我们识别出OPD下一种常见的结构性成因,称之为前缀失败(https://huggingface.co/papers?q=prefix%20failure)。在前缀失败(https://huggingface.co/papers?q=prefix%20failure)的情况下,密集的逐token监督会诱导双峰教师混合(https://huggingface.co/papers?q=bimodal%20teacher%20mixture)和碎片化梯度,而token级损失(https://huggingface.co/papers?q=token-level%20loss)截断或重加权无法解决这些问题。这一观察促使我们超越token级损失(https://huggingface.co/papers?q=token-level%20loss)干预,转向轨迹级输出修正。因此,我们提出了轨迹精炼蒸馏(Trajectory-Refined Distillation, TRD),一种轨迹级修正(https://huggingface.co/papers?q=trajectory-level%20correction)方法,它可以在同策略支持的范围内,在教师引导(https://huggingface.co/papers?q=teacher%20guidance)下修正学生模型的自生路径。通过在蒸馏前修正有问题的前缀,TRD从根源上缓解了前缀失败(https://huggingface.co/papers?q=prefix%20failure)。此外,即使原始路径已经正确,TRD也能通过暴露给学生教师引导(https://huggingface.co/papers?q=teacher%20guidance)下的其他有效推导路径,从而改善探索。TRD还可应用于同策略自蒸馏(https://huggingface.co/papers?q=on-policy%20self-distillation)(OPSD),这是一种参数共享(https://huggingface.co/papers?q=parameter-sharing)变体,使用基于特权信息条件的学生模型作为教师。在多个尺度的广泛基准和基础模型上,TRD始终优于先前的基线,提高了单次尝试的准确性并拓宽了推理覆盖范围。代码可在 https://github.com/louieworth/trd 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2606.08432)
查看 PDF (https://arxiv.org/pdf/2606.08432)
GitHub3 (https://github.com/louieworth/trd)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08432)
在你的代理中获取此论文:
hf papers read 2606.08432
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2606.08432 以从此页面链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2606.08432 以从此页面链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2606.08432 以从此页面链接。
包括此论文的收藏集1
相似文章
通过近未来引导弥合在线蒸馏中的推理轨迹
本文指出了在线蒸馏大语言模型时token级监督的局限性,并提出TOPD方法,利用近未来轨迹信息更好地识别发散推理状态并将引导分布到多个token上,在AIME基准测试中取得了性能提升。
LARK:基于可学习性的轨迹选择方法用于高效推理蒸馏
LARK提出了一种基于可学习性的推理轨迹选择方法,用于大语言模型蒸馏。该方法采用可学习性因子和χ²正则化选择策略,平衡效率与泛化能力,在多个模型和任务上持续优于基线方法。
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。
面向在线策略蒸馏的信任区域行为融合
信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。
Trust Region On-Policy Distillation
本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。