通过协作逐步多教师解码蒸馏长链思维推理

Hugging Face Daily Papers 2026/05/04 00:00 论文

reasoning distillation multi-teacher chain-of-thought step-wise decoding

摘要

CoRD是一个协作多教师解码框架，通过预测困惑度评分和束搜索合成推理轨迹，实现了大型推理模型的高效蒸馏，具有高质量输出和泛化性能。

蒸馏大型推理模型对于使长链思维推理变得实用至关重要，因为全规模推理在计算上仍然难以承受。现有的基于筛选的方法事后选择完整的推理轨迹，忽视了异构教师之间的协作，缺乏动态探索，导致冗余采样和遗漏互补推理。我们提出了CoRD，这是一个协作多教师解码框架，通过基于预测困惑度的评分和束搜索引导逐步推理合成。这使得异构LRM能够共同构建连贯的推理轨迹，同时有效保留多样化、高潜力的假设。实验表明，CoRD能够生成更高质量的推理数据，并且用更少、结构化的监督信号实现接近教师水平的学生性能，而不会产生显著的效率开销。CoRD进一步很好地泛化到域外和开放环境设置。数据集和模型可在https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}获取。

查看原文

查看缓存全文

缓存时间: 2026/05/18 10:25

论文页面 - 通过协作式逐步多教师解码蒸馏长思维链推理

来源: https://huggingface.co/papers/2605.02290

摘要

CoRD 是一种协作式多教师解码框架，通过基于预测困惑度的评分和束搜索来合成推理轨迹，从而实现高效蒸馏大型推理模型，输出高质量结果并具备泛化性能。

蒸馏大型推理模型（https://huggingface.co/papers?q=Distilling%20large%20reasoning%20models）对于使长思维链推理（https://huggingface.co/papers?q=Long-CoT%20reasoning）变得实用至关重要，因为完整规模的推理在计算上仍然过于昂贵。现有的基于数据筛选的方法事后选择完整的推理轨迹，忽略了异构教师（https://huggingface.co/papers?q=heterogeneous%20teachers）之间的协作，并且缺乏动态探索，从而导致冗余采样并遗漏互补性推理。我们提出 CoRD，一个协作式多教师解码（https://huggingface.co/papers?q=collaborative%20multi-teacher%20decoding）框架，通过基于预测困惑度评分（https://huggingface.co/papers?q=predictive%20perplexity-based%20scoring）和束搜索（https://huggingface.co/papers?q=beam%20search）的指导，实现逐步推理合成。这使得异构的轻量级推理模型能够共同构建连贯的推理轨迹（https://huggingface.co/papers?q=reasoning%20trajectories），同时高效保留多样化、高潜力的假设。实验表明，CoRD 生成更高质量的推理数据，并且仅需更少、更结构化的监督信号（https://huggingface.co/papers?q=structured%20supervision%20signals）即可达到接近教师级别的学生模型性能，且不会带来显著的效率开销。CoRD 还能很好地泛化到域外和开放场景。数据集和模型可在 https://github.com/DISL-Lab/CoRD（https://github.com/DISL-Lab/CoRD）获取。

查看 arXiv 页面（https://arxiv.org/abs/2605.02290）查看 PDF（https://arxiv.org/pdf/2605.02290）GitHub1（https://github.com/DISL-Lab/CoRD）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.02290）

在您的 agent 中获取此论文：

hf papers read 2605.02290

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.02290 以将其链接至此页面。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.02290 以将其链接至此页面。

引用此论文的 Spaces0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.02290 以将其链接至此页面。

包含此论文的收藏集0

无收藏集包含此论文

将本论文添加至收藏集（https://huggingface.co/new-collection）以将其链接至此页面。

通过协作逐步多教师解码蒸馏长链思维推理

论文页面 - 通过协作式逐步多教师解码蒸馏长思维链推理

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

基于代理上下文的链式思维微调长上下文推理

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

LoRi：面向隐式推理的低秩蒸馏框架

COFT：面向大型语言模型公平思维链推理的反事实-共形解码

CORE：对比反思实现推理能力的快速提升

提交意见反馈