reverse-kl

标签

Cards List
#reverse-kl

重新思考温度在大语言模型蒸馏中的作用

arXiv cs.LG · 4天前 缓存

本文重新审视了温度在大语言模型蒸馏中的作用,揭示出温度不对称地更有利于正向KL散度而非反向KL,使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈