内存富裕/显卡贫瘠的人错了吗?

Reddit r/LocalLLaMA 新闻

摘要

讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。

大家好,我知道每个人对本地模型都有自己的定义,但在我看来,前沿本地模型有两种“合理”的类型。一种是密集模型,勉强能塞进32GB或24GB显存,适合那些显存比较富裕的用户;另一种是参数在100B左右的MoE模型,大约100B参数可以通过混合卸载在128GB内存上以不错的速度运行,因为128GB是标准主板支持的最大容量。再说,它虽然便宜,但普通人仍然买得起,比一辆车还便宜😄。我们看到很多小型的密集模型,比如Qwen 27B,但对于100B级别的MoE类型,之前只有Qwen 3.5 122B,他们甚至没有发布3.6版本。最好的MoE模型参数范围在30-35B。这是否意味着对于内存富裕但显卡贫瘠的用户来说,选择不多,大显存才是唯一的好路子?当然,你可以把Minimaxi压到Q3,或者把DeepSeek V3压到Q1。但就工具调用、速度和实际使用而言,几乎不可用。我在内存危机之前买了Strix Halo,但我发现128GB除了能加载多个模型(这可以通过llama swap实现)之外,几乎没有其他用途。
查看原文

相似文章

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表