蒸馏有多难？

Reddit r/LocalLLaMA 2026/05/08 20:46 新闻

model-distillation deepseek-r1 llama-3 qwen-2-5 ai-training cost-analysis

摘要

该文章探讨了模型蒸馏的难度和成本，以DeepSeek R1蒸馏到Llama 3 8b和Qwen 2.5 7b为例，询问为何蒸馏模型不常见。

我记得大约一年前，DeepSeek R1发布后很快就被蒸馏到了Llama 3 8b和Qwen 2.5 (?) 7b上。为什么我们看不到更多蒸馏模型？蒸馏成本有多高？需要多少token或提示？

查看原文

相似文章

Reddit r/LocalLLaMA

一篇批判性分析警告：许多Qwen/Claude蒸馏模型使用的训练样本太少（如4K），无法转移实际能力，与DeepSeek-R1等使用约70万样本的官方蒸馏相比，常常反而降低质量而非提升。

X AI KOLs Timeline

用户分享对本地LLM模型Qwen3.6 35B A3B的喜爱，该模型使用Opus 4.7蒸馏后无审核限制。

X AI KOLs Timeline

作者通过计算Mac Studio运行大模型的token成本和回本周期，得出结论：普通用户购买Mac自用大模型不划算，建议使用API或租卡更经济。

X AI KOLs Timeline

本文详细解释了机器学习中知识蒸馏的技术原理，指出仅靠收集ChatGPT/Claude的输出对话无法实现有效蒸馏，因为缺少概率分布信息，并讨论了SFT和预训练中使用生成数据的局限性。

X AI KOLs Timeline

Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle，专门用于 Function Call，性能超过 Qwen-0.6B，展示了小模型在工具调用场景下的潜力。