@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志…
摘要
解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。
任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志。以下是我在8GB RTX 3070Ti上运行Qwen3.6 35B A3B(64k q8_0上下文)的结果:
无标志 → 8.7 tok/s 内存:13.6GB & 显存:7.8GB
-ncmoe 35 → 27.5 tok/s 内存:12.1GB & 显存:4.3GB
-ncmoe 30 → 32.5 tok/s 内存:12GB & 显存:5.6GB
-ncmoe 25 → 40.9 tok/s 内存:12GB & 显存:6.9GB
请注意,你看到的内存和显存使用量是Windows PC在运行模型时的总用量。我朋友的配置:8GB显存和16GB内存。你可以通过切换到Linux来提升性能,这一点值得留意。基本上,这个标志会将前X层的MoE专家保留在CPU+内存中,而不是立即占满所有显存。这是一种智能的混合卸载方式,让你能够运行更大的模型而不会内存溢出,同时将剩余部分保留在GPU上以获得速度。从数据中可以看出,存在一个最佳点。当我们从35降到25时,速度提升了+50%,因为更多层放在了GPU上(看看显存使用量)。关键是要尝试不同的数值,尽可能多地利用显存,目标是保留1GB/800MB的余量以避免压力。↓ 下面的服务器标志
相似文章
8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱
作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置,重点提示因内部推理无限制而耗尽 max_tokens 的陷阱,并给出用 per-request thinking_budget_tokens 的解决方案。
llama.cpp 的 auto fit 远比我想象的好用
llama.cpp 新增的 --fit 标志让超大模型也能在显存不足时高速运行,轻松突破显存限制,速度依旧惊人。
Qwen3.6 27b / llama.cpp / opencode 最佳配置
社区讨论帖,分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
Qwen 35B-A3B 在 12GB 显存下非常可用。
一位用户在12GB的RTX 3060上对Qwen 35B-A3B(一个35B参数的MoE模型)进行了基准测试,发现12GB显存是运行该模型并支持32k上下文时的实用甜点区,生成速度可达约47 token/秒。