蒸馏有多难?

Reddit r/LocalLLaMA 新闻

摘要

该文章探讨了模型蒸馏的难度和成本,以DeepSeek R1蒸馏到Llama 3 8b和Qwen 2.5 7b为例,询问为何蒸馏模型不常见。

我记得大约一年前,DeepSeek R1发布后很快就被蒸馏到了Llama 3 8b和Qwen 2.5 (?) 7b上。为什么我们看不到更多蒸馏模型?蒸馏成本有多高?需要多少token或提示?
查看原文

相似文章

@liumengxinfly: 看到 Redis 的作者 X 上发声,说总有人反复说中国的模型是蒸馏出来的,是根本不懂机器学习。 之前看到有人说中国的模型是蒸馏出来的我还都会辩驳一番,后来实在是见到太多了,累了不想说了,干脆写出来算了。 很多人说蒸馏其实根本不知道蒸馏是…

X AI KOLs Timeline

本文详细解释了机器学习中知识蒸馏的技术原理,指出仅靠收集ChatGPT/Claude的输出对话无法实现有效蒸馏,因为缺少概率分布信息,并讨论了SFT和预训练中使用生成数据的局限性。

@sitinme: 26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了! 现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗? 想想看,当你说“查一下今…

X AI KOLs Timeline

Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle,专门用于 Function Call,性能超过 Qwen-0.6B,展示了小模型在工具调用场景下的潜力。