llm-distillation

标签

Cards List
#llm-distillation

重新思考温度在大语言模型蒸馏中的作用

arXiv cs.LG · 4天前 缓存

本文重新审视了温度在大语言模型蒸馏中的作用,揭示出温度不对称地更有利于正向KL散度而非反向KL,使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。

0 人收藏 0 人点赞
#llm-distillation

黑盒LLM蒸馏的有界行为不可区分性

arXiv cs.LG · 5天前 缓存

本文提出有界行为不可区分性,一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明,蒸馏降低了但并未消除对抗性可区分性,凸显了类别感知评估的必要性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈