temperature

#temperature

重新思考温度在大语言模型蒸馏中的作用

arXiv cs.LG ↗ · 4天前缓存

本文重新审视了温度在大语言模型蒸馏中的作用，揭示出温度不对称地更有利于正向KL散度而非反向KL，使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。

0 人收藏 0 人点赞

#temperature

arXiv cs.LG ↗ · 2026-05-21 缓存

提出CIST方法，在知识蒸馏中为教师和学生分配独立的样本自适应温度，生成一致性信息丰富的软标签，并放宽严格的logit尺度匹配。在视觉和语言任务上的实验表明，相比标准KD具有一致的改进。

0 人收藏 0 人点赞