teacher-student

#teacher-student

@TheTuringPost: https://x.com/TheTuringPost/status/2068474648925216861

X AI KOLs Timeline ↗ · 3天前缓存

一篇关于知识蒸馏的教育性概述，涵盖其历史、核心概念（如softmax和温度）、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。

0 人收藏 0 人点赞

#teacher-student

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

符号门控在线策略蒸馏（SG-OPD）通过使用二元验证器作为教师监督的信任信号，增强了标准在线策略蒸馏，在竞赛级数学推理基准上提升了性能。

0 人收藏 0 人点赞

#teacher-student

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

Z-Reward 是一个教师-学生框架，它将复杂推理与高效的奖励部署解耦，用于文本到图像的训练。该框架使用 27B 教师模型达到了 89.6% 的人类偏好准确率，使用 9B 学生模型达到了 88.6%，超过了先前的方法。

0 人收藏 0 人点赞

#teacher-student

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

提示级蒸馏（PLD）从教师模型中提取推理模式，转化为结构化指令用于学生模型的系统提示，在不增加微调开销的情况下提升推理任务性能。

0 人收藏 0 人点赞

#teacher-student

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出了一种原则性的离线推理蒸馏框架，能够校正教师-学生分布漂移，在数学基准测试上提升推理准确性，且无需在线推理。

0 人收藏 0 人点赞

#teacher-student

Hugging Face Daily Papers ↗ · 2026-03-23 缓存

本文介绍了TESSY，一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌（来自教师）和风格令牌（来自学生），生成符合在线策略的SFT数据，从而解决了使用离线策略教师数据时的灾难性遗忘问题。

0 人收藏 0 人点赞

#teacher-student

OpenAI Blog ↗ · 2017-07-01 缓存

OpenAI 提出了师生课程学习（TSCL）框架，其中一个教师算法自动为学生选择子任务以学习复杂任务，基于学习曲线斜率进行优化并防止遗忘。该方法在十进制加法和 Minecraft 导航任务上与手工设计的课程相当或更优，使得之前无法通过直接训练实现的解决方案成为可能。

0 人收藏 0 人点赞