Trajectory-Refined Distillation

Hugging Face Daily Papers 2026/06/07 00:00 论文

摘要

Trajectory-Refined Distillation (TRD) 通过在蒸馏前在轨迹层面对学生模型的生成序列进行修正，解决了大语言模型（LLM）在同策略蒸馏中的前缀失败问题，在多项基准测试中持续优于先前基线方法。

On-policy distillation (OPD) 已成为大语言模型（LLM）训练后的核心工具，它能够沿着学生模型自身的生成序列提供密集的逐token教师监督。在这项工作中，我们发现OPD存在一个共同的结构性原因，我们将其称为前缀失败（prefix failure）。在前缀失败中，密集的逐token监督会导致双峰教师混合和碎片化梯度，而token级别的损失截断或重新加权无法解决这些问题。这一观察促使我们超越token级别的损失干预，转向轨迹级别的输出修正。因此，我们提出了Trajectory-Refined Distillation (TRD)，这是一种轨迹级别的修正方法，在同策略支持范围内根据教师指导修正学生模型的生成序列。通过在蒸馏前修正有问题的前缀，TRD从根源上缓解了前缀失败。此外，TRD通过让学生接触教师指导下的其他有效推导（即使原始生成序列已经是正确的）来改善探索。TRD同样可以应用于On-policy Self-Distillation (OPSD)，这是一种参数共享的变体，使用基于特权信息条件化的学生模型作为教师。在多个规模的广泛基准测试和基础模型上，TRD持续优于先前基线方法，提高了单次尝试的准确性并拓宽了推理覆盖范围。代码开源在 https://github.com/louieworth/trd

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:42

论文页面 - Trajectory-Refined Distillation

来源：https://huggingface.co/papers/2606.08432
发表于 6月7日

提交者：https://huggingface.co/Louieworth

Jiang (https://huggingface.co/Louieworth) 于 6月9日

摘要

同策略蒸馏（On-policy distillation）存在前缀失败（prefix failure）问题，即密集的token级监督会产生碎片化梯度；轨迹精炼蒸馏（trajectory-refined distillation）通过在进行蒸馏前，在轨迹层面对学生模型的自生轨迹进行修正来解决这一问题。

同策略蒸馏（https://huggingface.co/papers?q=On-policy%20distillation)（OPD）已成为大型语言模型（https://huggingface.co/papers?q=large%20language%20models）（LLMs）核心的后训练工具，提供沿着学生自身生成路径的密集逐token教师监督。在这项工作中，我们识别出OPD下一种常见的结构性成因，称之为前缀失败（https://huggingface.co/papers?q=prefix%20failure）。在前缀失败（https://huggingface.co/papers?q=prefix%20failure）的情况下，密集的逐token监督会诱导双峰教师混合（https://huggingface.co/papers?q=bimodal%20teacher%20mixture）和碎片化梯度，而token级损失（https://huggingface.co/papers?q=token-level%20loss）截断或重加权无法解决这些问题。这一观察促使我们超越token级损失（https://huggingface.co/papers?q=token-level%20loss）干预，转向轨迹级输出修正。因此，我们提出了轨迹精炼蒸馏（Trajectory-Refined Distillation, TRD），一种轨迹级修正（https://huggingface.co/papers?q=trajectory-level%20correction）方法，它可以在同策略支持的范围内，在教师引导（https://huggingface.co/papers?q=teacher%20guidance）下修正学生模型的自生路径。通过在蒸馏前修正有问题的前缀，TRD从根源上缓解了前缀失败（https://huggingface.co/papers?q=prefix%20failure）。此外，即使原始路径已经正确，TRD也能通过暴露给学生教师引导（https://huggingface.co/papers?q=teacher%20guidance）下的其他有效推导路径，从而改善探索。TRD还可应用于同策略自蒸馏（https://huggingface.co/papers?q=on-policy%20self-distillation）（OPSD），这是一种参数共享（https://huggingface.co/papers?q=parameter-sharing）变体，使用基于特权信息条件的学生模型作为教师。在多个尺度的广泛基准和基础模型上，TRD始终优于先前的基线，提高了单次尝试的准确性并拓宽了推理覆盖范围。代码可在 https://github.com/louieworth/trd 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2606.08432)
查看 PDF (https://arxiv.org/pdf/2606.08432)
GitHub3 (https://github.com/louieworth/trd)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08432)

在你的代理中获取此论文：

hf papers read 2606.08432

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2606.08432 以从此页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2606.08432 以从此页面链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2606.08432 以从此页面链接。

Trajectory-Refined Distillation

论文页面 - Trajectory-Refined Distillation

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces 0

包括此论文的收藏集1

相似文章

通过近未来引导弥合在线蒸馏中的推理轨迹

LARK：基于可学习性的轨迹选择方法用于高效推理蒸馏

同策略蒸馏（5分钟阅读）

面向在线策略蒸馏的信任区域行为融合

Trust Region On-Policy Distillation

提交意见反馈