如何微调推理模型?一个教师-学生协作框架用于合成学生一致的SFT数据
摘要
本文介绍了TESSY,一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌(来自教师)和风格令牌(来自学生),生成符合在线策略的SFT数据,从而解决了使用离线策略教师数据时的灾难性遗忘问题。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - 如何微调推理模型?一种生成学生一致性SFT数据的师生协作框架
来源:https://huggingface.co/papers/2604.14164
https://huggingface.co/papers/2604.14164#%F0%9F%9A%80-motivation🚀 动机
训练推理模型(例如 Qwen3)对数据分布高度敏感。我们观察到:
❗ 使用离策略数据(例如直接从强教师模型获取)进行SFT可能导致严重的灾难性遗忘,尤其是在复杂推理任务中。
https://huggingface.co/papers/2604.14164#%F0%9F%92%A1-key-idea💡 核心思路
为解决这一关键问题,我们提出TESSY,一种新颖的师生协作数据合成框架,旨在生成在策略的训练数据。TESSY不依赖教师模型完全生成训练样本,而是将生成过程解耦为两个独立部分:
- 🧠教师模型 → 专注于生成能力词元。
- ✍️学生模型 → 专注于生成风格词元(例如 Hmm, Wait…)。
这种协作方法确保了:
- 与学生分布一致(在策略):合成数据针对学生模型自身的生成模式定制。
- 保留教师推理质量:教师的高级推理能力得到有效利用和维持。
相似文章
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。
多语言思维,而非更难的思维:教授推理模型代码切换的数据高效框架
本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。
教师令牌何时可靠?基于位置加权的在线策略自蒸馏方法在推理中的应用
本文发现,推理蒸馏中教师令牌的可靠性具有轨迹结构特性,并提出了基于位置加权的在线策略自蒸馏方法(PW-OPSD),该方法通过应用递增的位置权重,在不增加教师计算量的情况下提升了性能。
学习该学什么:面向小语言模型SFT-then-RL推理的分阶段专属数据集
本文提出了一种难度感知的SFT-then-RL框架,用于在推理任务上训练小语言模型(参数量≤3B),核心观点是数据难度应与SFT(学习新技能)和RL(巩固已有技能)各自的不同角色相匹配。作者为困难SFT样本引入了Bridge机制,并针对RL失败案例提出了Critique Fine-Tuning方法,在五个推理基准测试上均取得了一致性提升。
定制课程:基于动态数据-模型兼容性的以学生为中心的推理蒸馏
提出数据-模型兼容性(DMC)指标,用于评估推理数据集在蒸馏过程中与学生模型的匹配程度。实验表明,DMC与蒸馏性能强相关,且基于DMC动态选择数据集可进一步提升推理能力。