如何微调推理模型？一个教师-学生协作框架用于合成学生一致的SFT数据

Hugging Face Daily Papers 2026/03/23 00:00 论文

摘要

本文介绍了TESSY，一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌（来自教师）和风格令牌（来自学生），生成符合在线策略的SFT数据，从而解决了使用离线策略教师数据时的灾难性遗忘问题。

一种广泛采用的模型增强策略是使用更强模型生成的合成数据进行监督微调（SFT）。然而，对于新兴的推理模型（如Qwen3-8B），这种方法往往无法提升推理能力，甚至可能导致性能大幅下降。在本工作中，我们发现教师生成的数据与学生分布之间存在显著的风格差异，这是影响SFT的主要因素。为弥合这一差距，我们提出了一种教师-学生协作数据合成框架（TESSY），该框架交替使用教师模型和学生模型，轮流生成风格令牌和非风格令牌。因此，TESSY生成的合成序列继承了教师的高级推理能力，同时保持了与学生分布的风格一致性。在代码生成实验中，使用GPT-OSS-120B作为教师，对Qwen3-8B进行教师数据微调导致LiveCodeBench-Pro性能下降3.25%，OJBench性能下降10.02%，而TESSY则分别实现了11.25%和6.68%的提升。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - 如何微调推理模型？一种生成学生一致性SFT数据的师生协作框架

来源：https://huggingface.co/papers/2604.14164

https://huggingface.co/papers/2604.14164#%F0%9F%9A%80-motivation🚀 动机

训练推理模型（例如 Qwen3）对数据分布高度敏感。我们观察到：

❗ 使用离策略数据（例如直接从强教师模型获取）进行SFT可能导致严重的灾难性遗忘，尤其是在复杂推理任务中。

https://huggingface.co/papers/2604.14164#%F0%9F%92%A1-key-idea💡 核心思路

为解决这一关键问题，我们提出TESSY，一种新颖的师生协作数据合成框架，旨在生成在策略的训练数据。TESSY不依赖教师模型完全生成训练样本，而是将生成过程解耦为两个独立部分：

🧠教师模型 → 专注于生成能力词元。
✍️学生模型 → 专注于生成风格词元（例如 Hmm, Wait…）。

这种协作方法确保了：

与学生分布一致（在策略）：合成数据针对学生模型自身的生成模式定制。
保留教师推理质量：教师的高级推理能力得到有效利用和维持。

如何微调推理模型？一个教师-学生协作框架用于合成学生一致的SFT数据

论文页面 - 如何微调推理模型？一种生成学生一致性SFT数据的师生协作框架

https://huggingface.co/papers/2604.14164#%F0%9F%9A%80-motivation🚀 动机

https://huggingface.co/papers/2604.14164#%F0%9F%92%A1-key-idea💡 核心思路

相似文章

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

多语言思维，而非更难的思维：教授推理模型代码切换的数据高效框架

教师令牌何时可靠？基于位置加权的在线策略自蒸馏方法在推理中的应用

学习该学什么：面向小语言模型SFT-then-RL推理的分阶段专属数据集

定制课程：基于动态数据-模型兼容性的以学生为中心的推理蒸馏

提交意见反馈