@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白，“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline 2026/05/08 18:06 工具

llama-cpp vram moe performance optimization inference local-llm

摘要

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存，在有限显存（8-12GB）上提升MoE模型（如Qwen3.6 35B A3B）的性能，基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

任何拥有8GB或12GB显存配置的用户都需要明白，“-ncmoe”是在llama.cpp上提升性能的关键标志。以下是我在8GB RTX 3070Ti上运行Qwen3.6 35B A3B（64k q8_0上下文）的结果：无标志 → 8.7 tok/s 内存：13.6GB & 显存：7.8GB -ncmoe 35 → 27.5 tok/s 内存：12.1GB & 显存：4.3GB -ncmoe 30 → 32.5 tok/s 内存：12GB & 显存：5.6GB -ncmoe 25 → 40.9 tok/s 内存：12GB & 显存：6.9GB 请注意，你看到的内存和显存使用量是Windows PC在运行模型时的总用量。我朋友的配置：8GB显存和16GB内存。你可以通过切换到Linux来提升性能，这一点值得留意。基本上，这个标志会将前X层的MoE专家保留在CPU+内存中，而不是立即占满所有显存。这是一种智能的混合卸载方式，让你能够运行更大的模型而不会内存溢出，同时将剩余部分保留在GPU上以获得速度。从数据中可以看出，存在一个最佳点。当我们从35降到25时，速度提升了+50%，因为更多层放在了GPU上（看看显存使用量）。关键是要尝试不同的数值，尽可能多地利用显存，目标是保留1GB/800MB的余量以避免压力。↓ 下面的服务器标志

查看原文

@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白，“-ncmoe”是在llama.cpp上提升性能的关键标志…

相似文章

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

llama.cpp 的 auto fit 远比我想象的好用

Qwen3.6 27b / llama.cpp / opencode 最佳配置

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Qwen 35B-A3B 在 12GB 显存下非常可用。

提交意见反馈