内存富裕/显卡贫瘠的人错了吗?

Reddit r/LocalLLaMA 新闻

摘要

讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。

大家好,我知道每个人对本地模型都有自己的定义,但在我看来,前沿本地模型有两种“合理”的类型。一种是密集模型,勉强能塞进32GB或24GB显存,适合那些显存比较富裕的用户;另一种是参数在100B左右的MoE模型,大约100B参数可以通过混合卸载在128GB内存上以不错的速度运行,因为128GB是标准主板支持的最大容量。再说,它虽然便宜,但普通人仍然买得起,比一辆车还便宜😄。我们看到很多小型的密集模型,比如Qwen 27B,但对于100B级别的MoE类型,之前只有Qwen 3.5 122B,他们甚至没有发布3.6版本。最好的MoE模型参数范围在30-35B。这是否意味着对于内存富裕但显卡贫瘠的用户来说,选择不多,大显存才是唯一的好路子?当然,你可以把Minimaxi压到Q3,或者把DeepSeek V3压到Q1。但就工具调用、速度和实际使用而言,几乎不可用。我在内存危机之前买了Strix Halo,但我发现128GB除了能加载多个模型(这可以通过llama swap实现)之外,几乎没有其他用途。
查看原文

相似文章

Rotary GPU:在有限显存下探索大型MoE模型的本地执行

Hacker News Top

本文介绍了Rotary GPU,一种探索性的执行方法,能够在有限显存的消费级硬件上运行大型混合专家(MoE)模型,在配备8GB显存的RTX 4060上达到21 tokens/s的速度。该方法关注部署的可行性而非架构改进。