标签
Ahmad Osman宣布了VibeThinker 3B,这是一个基于Qwen 2.5的30亿参数模型,声称性能可与Claude Opus 4.5媲美,并预测可在消费级硬件上进行本地部署。
该文章探讨了模型蒸馏的难度和成本,以DeepSeek R1蒸馏到Llama 3 8b和Qwen 2.5 7b为例,询问为何蒸馏模型不常见。