蒸馏有多难?
摘要
该文章探讨了模型蒸馏的难度和成本,以DeepSeek R1蒸馏到Llama 3 8b和Qwen 2.5 7b为例,询问为何蒸馏模型不常见。
我记得大约一年前,DeepSeek R1发布后很快就被蒸馏到了Llama 3 8b和Qwen 2.5 (?) 7b上。为什么我们看不到更多蒸馏模型?蒸馏成本有多高?需要多少token或提示?
相似文章
警惕Qwen/Claude蒸馏模型——它们往往不如基础模型
一篇批判性分析警告:许多Qwen/Claude蒸馏模型使用的训练样本太少(如4K),无法转移实际能力,与DeepSeek-R1等使用约70万样本的官方蒸馏相比,常常反而降低质量而非提升。
@cryptoresetlife: 没有限制的模型好玩啊哈哈 本地LLM模型里现在最喜欢这个 Qwen3.6 35B A3B用Opus 4.7蒸馏后无审核
用户分享对本地LLM模型Qwen3.6 35B A3B的喜爱,该模型使用Opus 4.7蒸馏后无审核限制。
@karminski3: 想买Mac运行大模型? 这是劝退贴 其实估算方法很简单, 现在买 MacStudio 哪怕运行 Qwen3.6-27B 4bit 量化版本, 然后开 DFlash 使用Qwen的内置投机解码, 也就飙到 65token/s. 而现在普遍大…
作者通过计算Mac Studio运行大模型的token成本和回本周期,得出结论:普通用户购买Mac自用大模型不划算,建议使用API或租卡更经济。
@liumengxinfly: 看到 Redis 的作者 X 上发声,说总有人反复说中国的模型是蒸馏出来的,是根本不懂机器学习。 之前看到有人说中国的模型是蒸馏出来的我还都会辩驳一番,后来实在是见到太多了,累了不想说了,干脆写出来算了。 很多人说蒸馏其实根本不知道蒸馏是…
本文详细解释了机器学习中知识蒸馏的技术原理,指出仅靠收集ChatGPT/Claude的输出对话无法实现有效蒸馏,因为缺少概率分布信息,并讨论了SFT和预训练中使用生成数据的局限性。
@sitinme: 26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了! 现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗? 想想看,当你说“查一下今…
Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle,专门用于 Function Call,性能超过 Qwen-0.6B,展示了小模型在工具调用场景下的潜力。