@analogalok:我的8GB显存游戏本肯定会恨我这么做,但我还是做了。跑了一个31B稠密模型(Gemma 4…
摘要
用户在8GB显存的游戏本上,使用llama.cpp配合MTP推测解码,以约3 tokens/s的速度运行了Gemma 4 31B稠密模型,展示了在消费级硬件上运行31B稠密模型的可行性,并提出了智能体工作流程:快速MoE模型将困难任务路由给这个较慢的稠密模型。
查看缓存全文
缓存时间: 2026/06/17 01:45
我的 8GB 显存游戏本绝对会恨死我。但我还是干了。
用仅 8GB 显存跑了一个 31B Dense 模型(Gemma 4 31B Q4)
上周我在 RTX 4060 上跑了 Gemma 4 26B A4B(一个混合专家模型),借助 llama.cpp 新的 MTP 支持,达到了 25–28 tokens/秒。丝滑、灵敏。
但 MoE 有个秘密:它虽然总共有 26B 参数,但每个 token 只激活 4B 参数。这就是为什么它飞快。
于是真正的问题开始萦绕在我心头:如果我在同一台机器上跑一个毫无技巧、每个 token 每个参数都激活的 31B Dense 模型,会怎样?
硬件:
GPU:NVIDIA RTX 4060,8 GB 显存 RAM:16 GB CPU:Intel Core i7 H 笔记本。游戏本。中规中矩。
模型:gemma-4-31B-it-qat-UD-Q4_K_XL.gguf (模型在 unsloth 的 Hugging Face 链接见评论区)
这是 Google DeepMind 在 Gemma 4 系列中能够在单张消费级 GPU 上运行的旗舰 Dense 模型。它采用混合注意力架构,原生支持最高 256K 上下文,并且经过 QAT(量化感知训练)优化,在相同比特深度下,质量远高于标准的训练后量化。注意,这不是 MoE,这是 310 亿 Dense 参数,每一个都加载了。
我使用的参数:
-m gemma-4-31B-it-qat-UD-Q4_K_XL.gguf -cnv –spec-type draft-mtp –spec-draft-model mtp-gemma-4-31B-it.gguf –spec-draft-n-max 8 –spec-draft-p-min 0.6 -c 6000 -v
这里仍然启用了多 token 预测(MTP)。需要单独的 draft GGUF,和 26B 的设置一样。
结果:
→ 解码:约 3 tokens/秒 → 预填充:约 2 tokens/秒 → 上下文:6000 tokens → 硬件在角落默默哭泣:是的
那么 3 tps 到底能不能用? 如果用于实时来回对话?不太理想。在 3 tps 下你无法进行流畅的对话。
但慢 ≠ 没用。这正是有趣之处。
想想资深开发者在真实团队中是如何工作的。但如果是架构性、极其复杂或需要深度推理的事情?他们会走到走廊尽头,升级到资深开发者。
这正是这种本地 AI 代理架构所能解锁的:
→ 快速编排模型(Gemma 4 26B MoE,25+ tps)处理路由、简单查询、工具调用、记忆。就是初级开发者。
→ Gemma 4 31B Dense 是资深开发者,只有在快速模型真正遇到瓶颈时才调用。比如硬的多步推理、复杂代码生成、深度架构决策。代理循环保持快速,只有硬问题才会触及 31B。这是一种在预算硬件上运行的合法生产级本地 AI 架构(需要 2 张 8GB GPU)。
其他 3 tps 完全可接受的工作流:
- 隔夜批处理作业。总结文档、提取结构化数据、审查代码。提交,睡觉,醒来查看结果。
- 一次性深度推理
- 静默代码审计循环:你编写和测试,31B 在后台审查 diff 并在你两次冲刺之间标记问题
- 任何输出质量重于输出速度的工作流
几周前,还没有人能在单张 8GB 显存的消费级 GPU 上运行 30B+ 的 Dense 模型。完全没有。现在,我们在一台搭载 Intel i7-H 和 NVIDIA RTX 4060 的游戏本上做到了,这要归功于 llama.cpp + QAT 量化 + MTP 推测性解码。
Google DeepMind 说 Gemma 4 31B 面向“消费级 GPU 和工作站”。他们没有夸张。运行前沿类模型的本地位硬件门槛在不断降低。
工具已经就绪。模型已经就绪。你只需要愿意稍微虐待一下你的笔记本。
你会在本地 3 tps 的 31B Dense 模型上实际运行哪些工作流?真心好奇。在下方留言。
unsloth/gemma-4-31B-it-qat-GGUF · Hugging Face
如何运行 MTP 模型:多 token 预测指南 | Unsloth 文档
确实如此。机器人技术、动画骨骼、假肢运动规划,任何求解器是迭代的且正确性比延迟更重要的领域。隔夜批处理范式完全重新定义了 3 tps 的意义。它不是慢,只是异步。睡眠就是免费的算力时间,而一个 31B Dense 模型不会在意你是否在看着它。
使用 llama.cpp:运行 llama-server 而不是 llama-cli。每个模型拥有自己独立的服务器实例,通过 -m 指向不同的 GGUF。你的应用或代理可以按需访问任意模型。
在单张 8GB 显存卡上,你一次只能加载一个模型,因此切换意味着杀死一个服务器并启动另一个。
快速模型通过工具调用发出委派信号,你的主机脚本/调度器拦截它,切换服务器,将相关上下文传递给较重的模型,然后获取结果。这在单卡上需要一些调优,但在 2 张 8GB 卡上可以完美运行。
相似文章
@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……
Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。
在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度
一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。
运行 gemma-4-26B-A4B 不需要 GPU
作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。
@sudoingX:这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型,持续 15 tok/s,22.8 o…
一台笔记本借助 Hermes agent 本地运行 31B 模型,速度 15 tok/s,显存占用 22.8 GB,功耗 94 W,实现完全自主、私密、无需云端的 AI 推理。
昨天在我的3090上跑了gemma 4 12b,我觉得本地模型领域已经变了
一位用户报告称,通过GGUF量化在单张RTX 3090上本地运行了谷歌的Gemma 4 12B模型,发现其性能强劲,包括真实的256k上下文、多模态能力以及函数调用功能,在编码任务上甚至优于更大的70B模型。