在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

Reddit r/LocalLLaMA 2026/05/13 20:41 工具

moe-inference llama-cpp quantization pcie-offloading speculative-decoding memory-optimization 8gb-vram

摘要

一位开发者展示了如何使用llama.cpp，通过MoE卸载和TurboQuant KV缓存量化技术，在老款GTX 1080（8GB显存）上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型，达到24+ tok/s的推理速度，并揭示了针对Gemma MTP投机解码的优化技巧。

我在一台200美元的二手设备（i7-6700 / GTX 1080 / 32GB内存）上，使用llama.cpp运行了 **Qwen 3.6 35B-A3B** 和 **Gemma 4 26B-A4B**（TurboQuant/RotorQuant KV缓存量化技术使得128k上下文能够容纳在8GB显存内）。**结果（Q4\\_K\\_M模型，128k上下文）：** |模型|tok/s|关键标志| |:-|:-|:-| |Qwen 3.6 35B-A3B|\\~24| \\--n-cpu-moe 30, K=turbo4 V=turbo3| |Gemma 4 26B-A4B（无MTP）|\\~20|\\--n-cpu-moe 20, K=V=turbo3, --flash-attn| |Gemma 4 26B-A4B + MTP（朴素）|\\~21|embedding table 静默位于CPU| |Gemma 4 26B-A4B + MTP（修复后）|\\~24.5|\\--override-tensor-draft \"token\\_embd\\.weight=CUDA0\"| 诀窍在于MoE卸载：llama.cpp可以将冷门专家权重存放在系统内存中，并通过PCIe流式传输到GPU，同时将热层+KV缓存保留在GPU上。系统完全受限于PCIe带宽（GPU利用率约40-50%，而PCIe 3.0 x16已满载）。**最大发现：** Gemma 4的MTP投机解码开箱几乎没什么帮助（约\\~5%提升）。原来llama.cpp无条件地将token嵌入表保留在CPU上。通常这没问题（只是一个`get_rows`查找），但Gemma 4的MTP辅助模型有一个绑定的LM头——因此每个草稿token都需要通过PCIe进行一次完整的262k×1024矩阵乘法。通过`--override-tensor-draft`强制将其放到GPU上，可以获得真正的约\\~22%加速和约\\~79%的草稿接受率。**设置痛点（Fedora 42 + Pascal GPU）：** * 将akmod-nvidia固定在580xx分支（Pascal即将成为遗留架构） * 为CUDA 12.9强制使用gcc-14（更新的gcc被拒绝） * 为glibc 2.41兼容性修补CUDA的math\\_functions.h * 使用AtomicBot-ai/atomic-llama-cpp-turboquant分支来同时支持TurboQuant缓存和Gemma MTP功能 [包含所有繁琐构建细节的完整博客文章](https://mdda.net/blog/tech/dl/llama-cpp-moe-on-an-old-gtx-1080)（包含每条命令，以及对MTP嵌入表问题的深入调试）我很快还会计划一个YouTube视频讲解 - 上线后会更新。很高兴回答有关设置的问题。

查看原文

相似文章

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

X AI KOLs Timeline

全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF，仅用一半显存即可在消费级 GPU 上运行，性能超越 35B MoE 模型。

Gemma 4 MTP 与 DFlash 在单张 H100 上：密集模型 vs MoE 模型结果

Reddit r/LocalLLaMA

该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较，结果显示 MTP 在密集模型上更快，而 DFlash 在 MoE 模型上更快。

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户，首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志，而非合成基准测试。**本文所有数据的关键负载背景：** 测试框架是一个多智能体编排器，同时运行 1-6 个并发的 OpenCode 会话，Prompt 长度为 30-60k token，并且强制执行**严格的 Bash 允许列表

我针对 Gemma 4 和 Qwen 3.5 的 30B 级别模型进行了一项实验，旨在探究能耗与性能的权衡关系。换句话说，我想弄清楚哪些模型在输出同等质量的回答时会消耗更多的电能。

Reddit r/LocalLLaMA

针对四款 30B 级别的稠密模型与 MoE 模型的实证研究显示，Gemma-4 26B MoE 在处理相同推理任务时，仅需 1.9–15 Wh 的能耗即可实现同等精度；而稠密模型及更大规模的 MoE 变体在该场景下的功耗最高可达 34 Wh。

相似文章

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

Gemma 4 MTP 与 DFlash 在单张 H100 上：密集模型 vs MoE 模型结果

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

我针对 Gemma 4 和 Qwen 3.5 的 30B 级别模型进行了一项实验，旨在探究能耗与性能的权衡关系。换句话说，我想弄清楚哪些模型在输出同等质量的回答时会消耗更多的电能。

提交意见反馈