@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

X AI KOLs Timeline 2026/06/16 23:15 新闻

local-llm gemma-4 8gb-vram llama-cpp quantization dense-model mtp

摘要

用户在8GB显存的游戏本上，使用llama.cpp配合MTP推测解码，以约3 tokens/s的速度运行了Gemma 4 31B稠密模型，展示了在消费级硬件上运行31B稠密模型的可行性，并提出了智能体工作流程：快速MoE模型将困难任务路由给这个较慢的稠密模型。

我的8GB显存游戏本肯定会恨我这么做，但我还是做了。我用仅8GB显存跑了一个31B稠密模型（Gemma 4 31b Q4）。上周我在RTX 4060上跑了Gemma 4 26B A4B（一个混合专家模型），借助llama.cpp新的MTP支持，达到了25–28 tokens/s的速度。流畅，快速。但MoE有个秘密：尽管总参数量为26B，但每个token只激活4B参数。所以它飞得快。于是真正的疑问开始困扰我：如果我用同一台机器运行一个完整、无技巧、每个token所有参数都激活的31B稠密模型会怎样？ # 硬件 GPU：NVIDIA RTX 4060，8GB显存内存：16GB CPU：Intel Core i7 H 笔记本，游戏本，配置一般。模型：gemma-4-31B-it-qat-UD-Q4_K_XL.gguf （模型的unsloth Hugging Face链接在评论区）这是Google DeepMind在Gemma 4系列中的旗舰稠密模型，可在单张消费级GPU上运行。它采用混合注意力架构，原生支持高达256K上下文，并经过QAT（量化感知训练）优化，意味着在相同位宽下比标准后训练量化保留了更多质量。这不是MoE。这是310亿个稠密参数，每一个都被加载。 # 我使用的参数： -m gemma-4-31B-it-qat-UD-Q4_K_XL.gguf -cnv --spec-type draft-mtp --spec-draft-model mtp-gemma-4-31B-it.gguf --spec-draft-n-max 8 --spec-draft-p-min 0.6 -c 6000 -v 多token预测（MTP）在此仍然生效。需要单独的草稿GGUF文件，与26B设置相同。 # 结果： → 解码：约3 tokens/s → 预填充：约2 tokens/s → 上下文：6000 tokens → 硬件在角落默默哭泣：是的那么3 tps实际可用吗？用于实时往返聊天？不理想。在3 tps下你无法进行流畅的对话。但慢≠无用。这正是真正有趣的地方。想想资深开发者在实际团队中是如何工作的。当遇到架构性、极度复杂或需要深度推理的问题时，他们会走到资深员工那里去请教。这正是这个架构解锁的本地AI智能体模式： → 快速编排模型（Gemma 4 26B MoE，25+ tps）处理路由、简单查询、工具调用和记忆。就像初级开发者。 → Gemma 4 31B稠密模型是资深开发者，仅在快速模型真正遇到瓶颈时被调用。处理多步推理、复杂代码生成、深层架构决策。智能体循环保持快速。只有困难的任务才触及31B。这是在预算硬件上合法的生产级本地AI架构。（需要2张8GB GPU）其他3 tps完全可用的工作流程： - 夜间批处理作业：总结文档、提取结构化数据、审查代码。提交任务，睡觉，醒来查看结果。 - 一次性深度推理 - 静默代码审计循环：你编写和测试，31B在后台审查差异并在你的冲刺之间标记问题 - 任何输出质量 > 输出速度的工作流几周前，还没有人在单张8GB显存的消费级GPU上运行30B+的稠密模型。完全没有。现在我们在配备NVIDIA RTX 4060的Intel i7-H游戏本上就做到了，这要感谢llama.cpp + QAT量化 + MTP推测草稿。 Google DeepMind说Gemma 4 31B的目标是“消费级GPU和工作站”。他们没有夸张。在本地运行前沿级模型的硬件门槛在不断降低。工具在这里，模型在这里。你只需要愿意稍微折腾一下你的笔记本。你实际上会在本地3 tps的31B稠密模型上运行哪些工作流程？真的很好奇。在下面留言吧。

查看原文

查看缓存全文

缓存时间: 2026/06/17 01:45

我的 8GB 显存游戏本绝对会恨死我。但我还是干了。

用仅 8GB 显存跑了一个 31B Dense 模型（Gemma 4 31B Q4）

上周我在 RTX 4060 上跑了 Gemma 4 26B A4B（一个混合专家模型），借助 llama.cpp 新的 MTP 支持，达到了 25–28 tokens/秒。丝滑、灵敏。

但 MoE 有个秘密：它虽然总共有 26B 参数，但每个 token 只激活 4B 参数。这就是为什么它飞快。

于是真正的问题开始萦绕在我心头：如果我在同一台机器上跑一个毫无技巧、每个 token 每个参数都激活的 31B Dense 模型，会怎样？

硬件：

GPU：NVIDIA RTX 4060，8 GB 显存 RAM：16 GB CPU：Intel Core i7 H 笔记本。游戏本。中规中矩。

模型：gemma-4-31B-it-qat-UD-Q4_K_XL.gguf （模型在 unsloth 的 Hugging Face 链接见评论区）

这是 Google DeepMind 在 Gemma 4 系列中能够在单张消费级 GPU 上运行的旗舰 Dense 模型。它采用混合注意力架构，原生支持最高 256K 上下文，并且经过 QAT（量化感知训练）优化，在相同比特深度下，质量远高于标准的训练后量化。注意，这不是 MoE，这是 310 亿 Dense 参数，每一个都加载了。

我使用的参数：

-m gemma-4-31B-it-qat-UD-Q4_K_XL.gguf -cnv –spec-type draft-mtp –spec-draft-model mtp-gemma-4-31B-it.gguf –spec-draft-n-max 8 –spec-draft-p-min 0.6 -c 6000 -v

这里仍然启用了多 token 预测（MTP）。需要单独的 draft GGUF，和 26B 的设置一样。

结果：

→ 解码：约 3 tokens/秒 → 预填充：约 2 tokens/秒 → 上下文：6000 tokens → 硬件在角落默默哭泣：是的

那么 3 tps 到底能不能用？如果用于实时来回对话？不太理想。在 3 tps 下你无法进行流畅的对话。

但慢 ≠ 没用。这正是有趣之处。

想想资深开发者在真实团队中是如何工作的。但如果是架构性、极其复杂或需要深度推理的事情？他们会走到走廊尽头，升级到资深开发者。

这正是这种本地 AI 代理架构所能解锁的：

→ 快速编排模型（Gemma 4 26B MoE，25+ tps）处理路由、简单查询、工具调用、记忆。就是初级开发者。

→ Gemma 4 31B Dense 是资深开发者，只有在快速模型真正遇到瓶颈时才调用。比如硬的多步推理、复杂代码生成、深度架构决策。代理循环保持快速，只有硬问题才会触及 31B。这是一种在预算硬件上运行的合法生产级本地 AI 架构（需要 2 张 8GB GPU）。

其他 3 tps 完全可接受的工作流：

隔夜批处理作业。总结文档、提取结构化数据、审查代码。提交，睡觉，醒来查看结果。
一次性深度推理
静默代码审计循环：你编写和测试，31B 在后台审查 diff 并在你两次冲刺之间标记问题
任何输出质量重于输出速度的工作流

几周前，还没有人能在单张 8GB 显存的消费级 GPU 上运行 30B+ 的 Dense 模型。完全没有。现在，我们在一台搭载 Intel i7-H 和 NVIDIA RTX 4060 的游戏本上做到了，这要归功于 llama.cpp + QAT 量化 + MTP 推测性解码。

Google DeepMind 说 Gemma 4 31B 面向“消费级 GPU 和工作站”。他们没有夸张。运行前沿类模型的本地位硬件门槛在不断降低。

工具已经就绪。模型已经就绪。你只需要愿意稍微虐待一下你的笔记本。

你会在本地 3 tps 的 31B Dense 模型上实际运行哪些工作流？真心好奇。在下方留言。

unsloth/gemma-4-31B-it-qat-GGUF · Hugging Face

如何运行 MTP 模型：多 token 预测指南 | Unsloth 文档

确实如此。机器人技术、动画骨骼、假肢运动规划，任何求解器是迭代的且正确性比延迟更重要的领域。隔夜批处理范式完全重新定义了 3 tps 的意义。它不是慢，只是异步。睡眠就是免费的算力时间，而一个 31B Dense 模型不会在意你是否在看着它。

使用 llama.cpp：运行 llama-server 而不是 llama-cli。每个模型拥有自己独立的服务器实例，通过 -m 指向不同的 GGUF。你的应用或代理可以按需访问任意模型。

在单张 8GB 显存卡上，你一次只能加载一个模型，因此切换意味着杀死一个服务器并启动另一个。

快速模型通过工具调用发出委派信号，你的主机脚本/调度器拦截它，切换服务器，将相关上下文传递给较重的模型，然后获取结果。这在单卡上需要一些调优，但在 2 张 8GB 卡上可以完美运行。

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

硬件：

我使用的参数：

结果：

相似文章

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

运行 gemma-4-26B-A4B 不需要 GPU

@sudoingX：这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型，持续 15 tok/s，22.8 o…

昨天在我的3090上跑了gemma 4 12b，我觉得本地模型领域已经变了

提交意见反馈