内存富裕/显卡贫瘠的人错了吗?
摘要
讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。
大家好,我知道每个人对本地模型都有自己的定义,但在我看来,前沿本地模型有两种“合理”的类型。一种是密集模型,勉强能塞进32GB或24GB显存,适合那些显存比较富裕的用户;另一种是参数在100B左右的MoE模型,大约100B参数可以通过混合卸载在128GB内存上以不错的速度运行,因为128GB是标准主板支持的最大容量。再说,它虽然便宜,但普通人仍然买得起,比一辆车还便宜😄。我们看到很多小型的密集模型,比如Qwen 27B,但对于100B级别的MoE类型,之前只有Qwen 3.5 122B,他们甚至没有发布3.6版本。最好的MoE模型参数范围在30-35B。这是否意味着对于内存富裕但显卡贫瘠的用户来说,选择不多,大显存才是唯一的好路子?当然,你可以把Minimaxi压到Q3,或者把DeepSeek V3压到Q1。但就工具调用、速度和实际使用而言,几乎不可用。我在内存危机之前买了Strix Halo,但我发现128GB除了能加载多个模型(这可以通过llama swap实现)之外,几乎没有其他用途。
相似文章
除了更快之外,MoE 模型的意义何在?
讨论混合专家(MoE)模型在速度之外相对于密集模型的优势,考虑内存限制和扩展限制。
Rotary GPU:在有限显存下探索大型MoE模型的本地执行
本文介绍了Rotary GPU,一种探索性的执行方法,能够在有限显存的消费级硬件上运行大型混合专家(MoE)模型,在配备8GB显存的RTX 4060上达到21 tokens/s的速度。该方法关注部署的可行性而非架构改进。
高显存本地编码模型——依然首选 Qwen 3.6 27B 吗?
用户分享了使用 Qwen 3.6 27B 进行本地编码任务的经验,并寻求适合拥有 224GB 显存系统的更大模型(100B 以上)的推荐。
将大型模型卸载到系统内存时的性能表现?
讨论了将大型AI模型权重从GPU显存卸载到系统内存时的性能权衡,比较了不同GPU配置(如RTX 5090与RTX6000)在运行DeepSeek V4 Pro等模型时的表现。
@andrewchen:体验本地AI模型的主要缺点在于你会买一块GPU,然后另一块,接着又一块……
Andrew Chen分享了他为本地AI实验购买多块GPU的经历,在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型,并将其与Sonnet 4.6进行比较。