如何微调推理模型?一个教师-学生协作框架用于合成学生一致的SFT数据

Hugging Face Daily Papers 论文

摘要

本文介绍了TESSY,一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌(来自教师)和风格令牌(来自学生),生成符合在线策略的SFT数据,从而解决了使用离线策略教师数据时的灾难性遗忘问题。

一种广泛采用的模型增强策略是使用更强模型生成的合成数据进行监督微调(SFT)。然而,对于新兴的推理模型(如Qwen3-8B),这种方法往往无法提升推理能力,甚至可能导致性能大幅下降。在本工作中,我们发现教师生成的数据与学生分布之间存在显著的风格差异,这是影响SFT的主要因素。为弥合这一差距,我们提出了一种教师-学生协作数据合成框架(TESSY),该框架交替使用教师模型和学生模型,轮流生成风格令牌和非风格令牌。因此,TESSY生成的合成序列继承了教师的高级推理能力,同时保持了与学生分布的风格一致性。在代码生成实验中,使用GPT-OSS-120B作为教师,对Qwen3-8B进行教师数据微调导致LiveCodeBench-Pro性能下降3.25%,OJBench性能下降10.02%,而TESSY则分别实现了11.25%和6.68%的提升。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - 如何微调推理模型?一种生成学生一致性SFT数据的师生协作框架

来源:https://huggingface.co/papers/2604.14164

https://huggingface.co/papers/2604.14164#%F0%9F%9A%80-motivation🚀 动机

训练推理模型(例如 Qwen3)对数据分布高度敏感。我们观察到:

❗ 使用离策略数据(例如直接从强教师模型获取)进行SFT可能导致严重的灾难性遗忘,尤其是在复杂推理任务中。


https://huggingface.co/papers/2604.14164#%F0%9F%92%A1-key-idea💡 核心思路

为解决这一关键问题,我们提出TESSY,一种新颖的师生协作数据合成框架,旨在生成在策略的训练数据。TESSY不依赖教师模型完全生成训练样本,而是将生成过程解耦为两个独立部分

  • 🧠教师模型 → 专注于生成能力词元
  • ✍️学生模型 → 专注于生成风格词元(例如 Hmm, Wait…)。

这种协作方法确保了:

  • 与学生分布一致(在策略):合成数据针对学生模型自身的生成模式定制。
  • 保留教师推理质量:教师的高级推理能力得到有效利用和维持。

相似文章

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。

多语言思维,而非更难的思维:教授推理模型代码切换的数据高效框架

arXiv cs.CL

本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。

学习该学什么:面向小语言模型SFT-then-RL推理的分阶段专属数据集

arXiv cs.CL

本文提出了一种难度感知的SFT-then-RL框架,用于在推理任务上训练小语言模型(参数量≤3B),核心观点是数据难度应与SFT(学习新技能)和RL(巩固已有技能)各自的不同角色相匹配。作者为困难SFT样本引入了Bridge机制,并针对RL失败案例提出了Critique Fine-Tuning方法,在五个推理基准测试上均取得了一致性提升。