llm-distillation

#llm-distillation

重新思考温度在大语言模型蒸馏中的作用

arXiv cs.LG ↗ · 4天前缓存

本文重新审视了温度在大语言模型蒸馏中的作用，揭示出温度不对称地更有利于正向KL散度而非反向KL，使得简单的KL方法在较高温度下能够匹敌当前最先进的蒸馏方法。

0 人收藏 0 人点赞

#llm-distillation

arXiv cs.LG ↗ · 5天前缓存

本文提出有界行为不可区分性，一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明，蒸馏降低了但并未消除对抗性可区分性，凸显了类别感知评估的必要性。

0 人收藏 0 人点赞