@analogalok:我的8GB显存游戏本肯定会恨我这么做,但我还是做了。跑了一个31B稠密模型(Gemma 4…

X AI KOLs Timeline 新闻

摘要

用户在8GB显存的游戏本上,使用llama.cpp配合MTP推测解码,以约3 tokens/s的速度运行了Gemma 4 31B稠密模型,展示了在消费级硬件上运行31B稠密模型的可行性,并提出了智能体工作流程:快速MoE模型将困难任务路由给这个较慢的稠密模型。

我的8GB显存游戏本肯定会恨我这么做,但我还是做了。 我用仅8GB显存跑了一个31B稠密模型(Gemma 4 31b Q4)。 上周我在RTX 4060上跑了Gemma 4 26B A4B(一个混合专家模型),借助llama.cpp新的MTP支持,达到了25–28 tokens/s的速度。流畅,快速。 但MoE有个秘密:尽管总参数量为26B,但每个token只激活4B参数。所以它飞得快。 于是真正的疑问开始困扰我:如果我用同一台机器运行一个完整、无技巧、每个token所有参数都激活的31B稠密模型会怎样? # 硬件 GPU:NVIDIA RTX 4060,8GB显存 内存:16GB CPU:Intel Core i7 H 笔记本,游戏本,配置一般。 模型:gemma-4-31B-it-qat-UD-Q4_K_XL.gguf (模型的unsloth Hugging Face链接在评论区) 这是Google DeepMind在Gemma 4系列中的旗舰稠密模型,可在单张消费级GPU上运行。它采用混合注意力架构,原生支持高达256K上下文,并经过QAT(量化感知训练)优化,意味着在相同位宽下比标准后训练量化保留了更多质量。这不是MoE。这是310亿个稠密参数,每一个都被加载。 # 我使用的参数: -m gemma-4-31B-it-qat-UD-Q4_K_XL.gguf -cnv --spec-type draft-mtp --spec-draft-model mtp-gemma-4-31B-it.gguf --spec-draft-n-max 8 --spec-draft-p-min 0.6 -c 6000 -v 多token预测(MTP)在此仍然生效。需要单独的草稿GGUF文件,与26B设置相同。 # 结果: → 解码:约3 tokens/s → 预填充:约2 tokens/s → 上下文:6000 tokens → 硬件在角落默默哭泣:是的 那么3 tps实际可用吗? 用于实时往返聊天?不理想。在3 tps下你无法进行流畅的对话。 但慢≠无用。这正是真正有趣的地方。 想想资深开发者在实际团队中是如何工作的。当遇到架构性、极度复杂或需要深度推理的问题时,他们会走到资深员工那里去请教。 这正是这个架构解锁的本地AI智能体模式: → 快速编排模型(Gemma 4 26B MoE,25+ tps)处理路由、简单查询、工具调用和记忆。就像初级开发者。 → Gemma 4 31B稠密模型是资深开发者,仅在快速模型真正遇到瓶颈时被调用。处理多步推理、复杂代码生成、深层架构决策。智能体循环保持快速。只有困难的任务才触及31B。这是在预算硬件上合法的生产级本地AI架构。(需要2张8GB GPU) 其他3 tps完全可用的工作流程: - 夜间批处理作业:总结文档、提取结构化数据、审查代码。提交任务,睡觉,醒来查看结果。 - 一次性深度推理 - 静默代码审计循环:你编写和测试,31B在后台审查差异并在你的冲刺之间标记问题 - 任何输出质量 > 输出速度的工作流 几周前,还没有人在单张8GB显存的消费级GPU上运行30B+的稠密模型。完全没有。现在我们在配备NVIDIA RTX 4060的Intel i7-H游戏本上就做到了,这要感谢llama.cpp + QAT量化 + MTP推测草稿。 Google DeepMind说Gemma 4 31B的目标是“消费级GPU和工作站”。他们没有夸张。在本地运行前沿级模型的硬件门槛在不断降低。 工具在这里,模型在这里。你只需要愿意稍微折腾一下你的笔记本。 你实际上会在本地3 tps的31B稠密模型上运行哪些工作流程?真的很好奇。在下面留言吧。
查看原文
查看缓存全文

缓存时间: 2026/06/17 01:45

我的 8GB 显存游戏本绝对会恨死我。但我还是干了。

用仅 8GB 显存跑了一个 31B Dense 模型(Gemma 4 31B Q4)

上周我在 RTX 4060 上跑了 Gemma 4 26B A4B(一个混合专家模型),借助 llama.cpp 新的 MTP 支持,达到了 25–28 tokens/秒。丝滑、灵敏。

但 MoE 有个秘密:它虽然总共有 26B 参数,但每个 token 只激活 4B 参数。这就是为什么它飞快。

于是真正的问题开始萦绕在我心头:如果我在同一台机器上跑一个毫无技巧、每个 token 每个参数都激活的 31B Dense 模型,会怎样?

硬件:

GPU:NVIDIA RTX 4060,8 GB 显存 RAM:16 GB CPU:Intel Core i7 H 笔记本。游戏本。中规中矩。

模型:gemma-4-31B-it-qat-UD-Q4_K_XL.gguf (模型在 unsloth 的 Hugging Face 链接见评论区)

这是 Google DeepMind 在 Gemma 4 系列中能够在单张消费级 GPU 上运行的旗舰 Dense 模型。它采用混合注意力架构,原生支持最高 256K 上下文,并且经过 QAT(量化感知训练)优化,在相同比特深度下,质量远高于标准的训练后量化。注意,这不是 MoE,这是 310 亿 Dense 参数,每一个都加载了。

我使用的参数:

-m gemma-4-31B-it-qat-UD-Q4_K_XL.gguf -cnv –spec-type draft-mtp –spec-draft-model mtp-gemma-4-31B-it.gguf –spec-draft-n-max 8 –spec-draft-p-min 0.6 -c 6000 -v

这里仍然启用了多 token 预测(MTP)。需要单独的 draft GGUF,和 26B 的设置一样。

结果:

→ 解码:约 3 tokens/秒 → 预填充:约 2 tokens/秒 → 上下文:6000 tokens → 硬件在角落默默哭泣:是的

那么 3 tps 到底能不能用? 如果用于实时来回对话?不太理想。在 3 tps 下你无法进行流畅的对话。

但慢 ≠ 没用。这正是有趣之处。

想想资深开发者在真实团队中是如何工作的。但如果是架构性、极其复杂或需要深度推理的事情?他们会走到走廊尽头,升级到资深开发者。

这正是这种本地 AI 代理架构所能解锁的:

→ 快速编排模型(Gemma 4 26B MoE,25+ tps)处理路由、简单查询、工具调用、记忆。就是初级开发者。

→ Gemma 4 31B Dense 是资深开发者,只有在快速模型真正遇到瓶颈时才调用。比如硬的多步推理、复杂代码生成、深度架构决策。代理循环保持快速,只有硬问题才会触及 31B。这是一种在预算硬件上运行的合法生产级本地 AI 架构(需要 2 张 8GB GPU)。

其他 3 tps 完全可接受的工作流:

  • 隔夜批处理作业。总结文档、提取结构化数据、审查代码。提交,睡觉,醒来查看结果。
  • 一次性深度推理
  • 静默代码审计循环:你编写和测试,31B 在后台审查 diff 并在你两次冲刺之间标记问题
  • 任何输出质量重于输出速度的工作流

几周前,还没有人能在单张 8GB 显存的消费级 GPU 上运行 30B+ 的 Dense 模型。完全没有。现在,我们在一台搭载 Intel i7-H 和 NVIDIA RTX 4060 的游戏本上做到了,这要归功于 llama.cpp + QAT 量化 + MTP 推测性解码。

Google DeepMind 说 Gemma 4 31B 面向“消费级 GPU 和工作站”。他们没有夸张。运行前沿类模型的本地位硬件门槛在不断降低。

工具已经就绪。模型已经就绪。你只需要愿意稍微虐待一下你的笔记本。

你会在本地 3 tps 的 31B Dense 模型上实际运行哪些工作流?真心好奇。在下方留言。

unsloth/gemma-4-31B-it-qat-GGUF · Hugging Face

如何运行 MTP 模型:多 token 预测指南 | Unsloth 文档

确实如此。机器人技术、动画骨骼、假肢运动规划,任何求解器是迭代的且正确性比延迟更重要的领域。隔夜批处理范式完全重新定义了 3 tps 的意义。它不是慢,只是异步。睡眠就是免费的算力时间,而一个 31B Dense 模型不会在意你是否在看着它。

使用 llama.cpp:运行 llama-server 而不是 llama-cli。每个模型拥有自己独立的服务器实例,通过 -m 指向不同的 GGUF。你的应用或代理可以按需访问任意模型。

在单张 8GB 显存卡上,你一次只能加载一个模型,因此切换意味着杀死一个服务器并启动另一个。

快速模型通过工具调用发出委派信号,你的主机脚本/调度器拦截它,切换服务器,将相关上下文传递给较重的模型,然后获取结果。这在单卡上需要一些调优,但在 2 张 8GB 卡上可以完美运行。

相似文章

运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA

作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。