teacher-student

标签

Cards List
#teacher-student

@TheTuringPost: https://x.com/TheTuringPost/status/2068474648925216861

X AI KOLs Timeline · 3天前 缓存

一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。

0 人收藏 0 人点赞
#teacher-student

SG-OPD:通过符号一致性门控和分阶段教师采样的符号门控在线策略蒸馏

Hugging Face Daily Papers · 2026-06-08 缓存

符号门控在线策略蒸馏(SG-OPD)通过使用二元验证器作为教师监督的信任信号,增强了标准在线策略蒸馏,在竞赛级数学推理基准上提升了性能。

0 人收藏 0 人点赞
#teacher-student

超越标量奖励:将推理内化到分数分布中

Hugging Face Daily Papers · 2026-06-08 缓存

Z-Reward 是一个教师-学生框架,它将复杂推理与高效的奖励部署解耦,用于文本到图像的训练。该框架使用 27B 教师模型达到了 89.6% 的人类偏好准确率,使用 9B 学生模型达到了 88.6%,超过了先前的方法。

0 人收藏 0 人点赞
#teacher-student

提示级蒸馏:一种高效推理的非参数化模型微调替代方案

Hugging Face Daily Papers · 2026-06-02 缓存

提示级蒸馏(PLD)从教师模型中提取推理模式,转化为结构化指令用于学生模型的系统提示,在不增加微调开销的情况下提升推理任务性能。

0 人收藏 0 人点赞
#teacher-student

面向大型语言模型的分布校正离线数据蒸馏

arXiv cs.CL · 2026-05-15 缓存

本文提出了一种原则性的离线推理蒸馏框架,能够校正教师-学生分布漂移,在数学基准测试上提升推理准确性,且无需在线推理。

0 人收藏 0 人点赞
#teacher-student

如何微调推理模型?一个教师-学生协作框架用于合成学生一致的SFT数据

Hugging Face Daily Papers · 2026-03-23 缓存

本文介绍了TESSY,一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌(来自教师)和风格令牌(来自学生),生成符合在线策略的SFT数据,从而解决了使用离线策略教师数据时的灾难性遗忘问题。

0 人收藏 0 人点赞
#teacher-student

师生课程学习

OpenAI Blog · 2017-07-01 缓存

OpenAI 提出了师生课程学习(TSCL)框架,其中一个教师算法自动为学生选择子任务以学习复杂任务,基于学习曲线斜率进行优化并防止遗忘。该方法在十进制加法和 Minecraft 导航任务上与手工设计的课程相当或更优,使得之前无法通过直接训练实现的解决方案成为可能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈