通过协作逐步多教师解码蒸馏长链思维推理
摘要
CoRD是一个协作多教师解码框架,通过预测困惑度评分和束搜索合成推理轨迹,实现了大型推理模型的高效蒸馏,具有高质量输出和泛化性能。
查看缓存全文
缓存时间: 2026/05/18 10:25
论文页面 - 通过协作式逐步多教师解码蒸馏长思维链推理
来源: https://huggingface.co/papers/2605.02290
摘要
CoRD 是一种协作式多教师解码框架,通过基于预测困惑度的评分和束搜索来合成推理轨迹,从而实现高效蒸馏大型推理模型,输出高质量结果并具备泛化性能。
蒸馏大型推理模型(https://huggingface.co/papers?q=Distilling%20large%20reasoning%20models)对于使长思维链推理(https://huggingface.co/papers?q=Long-CoT%20reasoning)变得实用至关重要,因为完整规模的推理在计算上仍然过于昂贵。现有的基于数据筛选的方法事后选择完整的推理轨迹,忽略了异构教师(https://huggingface.co/papers?q=heterogeneous%20teachers)之间的协作,并且缺乏动态探索,从而导致冗余采样并遗漏互补性推理。我们提出 CoRD,一个协作式多教师解码(https://huggingface.co/papers?q=collaborative%20multi-teacher%20decoding)框架,通过基于预测困惑度评分(https://huggingface.co/papers?q=predictive%20perplexity-based%20scoring)和束搜索(https://huggingface.co/papers?q=beam%20search)的指导,实现逐步推理合成。这使得异构的轻量级推理模型能够共同构建连贯的推理轨迹(https://huggingface.co/papers?q=reasoning%20trajectories),同时高效保留多样化、高潜力的假设。实验表明,CoRD 生成更高质量的推理数据,并且仅需更少、更结构化的监督信号(https://huggingface.co/papers?q=structured%20supervision%20signals)即可达到接近教师级别的学生模型性能,且不会带来显著的效率开销。CoRD 还能很好地泛化到域外和开放场景。数据集和模型可在 https://github.com/DISL-Lab/CoRD(https://github.com/DISL-Lab/CoRD)获取。
查看 arXiv 页面(https://arxiv.org/abs/2605.02290)查看 PDF(https://arxiv.org/pdf/2605.02290)GitHub1(https://github.com/DISL-Lab/CoRD)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.02290)
在您的 agent 中获取此论文:
hf papers read 2605.02290
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.02290 以将其链接至此页面。
引用此论文的数据集0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.02290 以将其链接至此页面。
引用此论文的 Spaces0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.02290 以将其链接至此页面。
包含此论文的收藏集0
无收藏集包含此论文
将本论文添加至收藏集(https://huggingface.co/new-collection)以将其链接至此页面。
相似文章
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。
LoRi:面向隐式推理的低秩蒸馏框架
LoRi提出了一种面向隐式思维链推理的低秩蒸馏框架,该框架在共享低秩子空间中对齐教师和学生轨迹,从而提升数学推理基准上的性能。
COFT:面向大型语言模型公平思维链推理的反事实-共形解码
COFT是一种无需训练的解码方法,通过应用令牌级公平控制和共形校准来减少大型语言模型思维链推理中的偏见,以最小的计算开销实现30-55%的偏见降低。
CORE:对比反思实现推理能力的快速提升
对比反思(CORE)是一种非参数算法,通过比较成功与不成功的推理轨迹,生成简洁、可解释的洞见,从而以比现有方法更少的样本和 rollout 次数,实现语言模型更快、更高效的自我改进。