在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度

Reddit r/LocalLLaMA 工具

摘要

一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。

我在一台200美元的二手设备(i7-6700 / GTX 1080 / 32GB内存)上,使用llama.cpp运行了 **Qwen 3.6 35B-A3B** 和 **Gemma 4 26B-A4B**(TurboQuant/RotorQuant KV缓存量化技术使得128k上下文能够容纳在8GB显存内)。**结果(Q4\\_K\\_M模型,128k上下文):** |模型|tok/s|关键标志| |:-|:-|:-| |Qwen 3.6 35B-A3B|\\~24| \\--n-cpu-moe 30, K=turbo4 V=turbo3| |Gemma 4 26B-A4B(无MTP)|\\~20|\\--n-cpu-moe 20, K=V=turbo3, --flash-attn| |Gemma 4 26B-A4B + MTP(朴素)|\\~21|embedding table 静默位于CPU| |Gemma 4 26B-A4B + MTP(修复后)|\\~24.5|\\--override-tensor-draft \"token\\_embd\\.weight=CUDA0\"| 诀窍在于MoE卸载:llama.cpp可以将冷门专家权重存放在系统内存中,并通过PCIe流式传输到GPU,同时将热层+KV缓存保留在GPU上。系统完全受限于PCIe带宽(GPU利用率约40-50%,而PCIe 3.0 x16已满载)。**最大发现:** Gemma 4的MTP投机解码开箱几乎没什么帮助(约\\~5%提升)。原来llama.cpp无条件地将token嵌入表保留在CPU上。通常这没问题(只是一个`get_rows`查找),但Gemma 4的MTP辅助模型有一个绑定的LM头——因此每个草稿token都需要通过PCIe进行一次完整的262k×1024矩阵乘法。通过`--override-tensor-draft`强制将其放到GPU上,可以获得真正的约\\~22%加速和约\\~79%的草稿接受率。**设置痛点(Fedora 42 + Pascal GPU):** * 将akmod-nvidia固定在580xx分支(Pascal即将成为遗留架构) * 为CUDA 12.9强制使用gcc-14(更新的gcc被拒绝) * 为glibc 2.41兼容性修补CUDA的math\\_functions.h * 使用AtomicBot-ai/atomic-llama-cpp-turboquant分支来同时支持TurboQuant缓存和Gemma MTP功能 [包含所有繁琐构建细节的完整博客文章](https://mdda.net/blog/tech/dl/llama-cpp-moe-on-an-old-gtx-1080)(包含每条命令,以及对MTP嵌入表问题的深入调试)我很快还会计划一个YouTube视频讲解 - 上线后会更新。很高兴回答有关设置的问题。
查看原文

相似文章

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表

我针对 Gemma 4 和 Qwen 3.5 的 30B 级别模型进行了一项实验,旨在探究能耗与性能的权衡关系。换句话说,我想弄清楚哪些模型在输出同等质量的回答时会消耗更多的电能。

Reddit r/LocalLLaMA

针对四款 30B 级别的稠密模型与 MoE 模型的实证研究显示,Gemma-4 26B MoE 在处理相同推理任务时,仅需 1.9–15 Wh 的能耗即可实现同等精度;而稠密模型及更大规模的 MoE 变体在该场景下的功耗最高可达 34 Wh。