内存富裕/显卡贫瘠的人错了吗？

Reddit r/LocalLLaMA 2026/05/15 14:43 新闻

local-ai hardware moe dense-models gpu-memory ram model-offload

摘要

讨论了本地AI中密集模型与混合专家（MoE）模型之间的权衡，指出高内存用户除了Qwen 3.5 122B之外，MoE选择有限，并质疑大显存是否是唯一可行的路径。

大家好，我知道每个人对本地模型都有自己的定义，但在我看来，前沿本地模型有两种“合理”的类型。一种是密集模型，勉强能塞进32GB或24GB显存，适合那些显存比较富裕的用户；另一种是参数在100B左右的MoE模型，大约100B参数可以通过混合卸载在128GB内存上以不错的速度运行，因为128GB是标准主板支持的最大容量。再说，它虽然便宜，但普通人仍然买得起，比一辆车还便宜😄。我们看到很多小型的密集模型，比如Qwen 27B，但对于100B级别的MoE类型，之前只有Qwen 3.5 122B，他们甚至没有发布3.6版本。最好的MoE模型参数范围在30-35B。这是否意味着对于内存富裕但显卡贫瘠的用户来说，选择不多，大显存才是唯一的好路子？当然，你可以把Minimaxi压到Q3，或者把DeepSeek V3压到Q1。但就工具调用、速度和实际使用而言，几乎不可用。我在内存危机之前买了Strix Halo，但我发现128GB除了能加载多个模型（这可以通过llama swap实现）之外，几乎没有其他用途。

查看原文

内存富裕/显卡贫瘠的人错了吗？

相似文章

除了更快之外，MoE 模型的意义何在？

Rotary GPU：在有限显存下探索大型MoE模型的本地执行

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

将大型模型卸载到系统内存时的性能表现？

@andrewchen：体验本地AI模型的主要缺点在于你会买一块GPU，然后另一块，接着又一块……

提交意见反馈