@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline 工具

摘要

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志。以下是我在8GB RTX 3070Ti上运行Qwen3.6 35B A3B(64k q8_0上下文)的结果: 无标志 → 8.7 tok/s 内存:13.6GB & 显存:7.8GB -ncmoe 35 → 27.5 tok/s 内存:12.1GB & 显存:4.3GB -ncmoe 30 → 32.5 tok/s 内存:12GB & 显存:5.6GB -ncmoe 25 → 40.9 tok/s 内存:12GB & 显存:6.9GB 请注意,你看到的内存和显存使用量是Windows PC在运行模型时的总用量。我朋友的配置:8GB显存和16GB内存。你可以通过切换到Linux来提升性能,这一点值得留意。基本上,这个标志会将前X层的MoE专家保留在CPU+内存中,而不是立即占满所有显存。这是一种智能的混合卸载方式,让你能够运行更大的模型而不会内存溢出,同时将剩余部分保留在GPU上以获得速度。从数据中可以看出,存在一个最佳点。当我们从35降到25时,速度提升了+50%,因为更多层放在了GPU上(看看显存使用量)。关键是要尝试不同的数值,尽可能多地利用显存,目标是保留1GB/800MB的余量以避免压力。↓ 下面的服务器标志
查看原文

相似文章

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA

一位用户在12GB的RTX 3060上对Qwen 35B-A3B(一个35B参数的MoE模型)进行了基准测试,发现12GB显存是运行该模型并支持32k上下文时的实用甜点区,生成速度可达约47 token/秒。