@Freerunnering: 这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。这个视频是实时的，…

X AI KOLs Timeline 2026/06/12 03:30 模型

gemma-4 coding-agent local-inference macbook mpt gguf unsloth

摘要

Unsloth AI宣布，Gemma 4在MTP GGUFs上运行速度快了2倍，使得在如MacBook Pro M1 Max这样的硬件上以72 tokens/s的速度运行本地编码代理成为可能。

这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。这个视频是实时的，完全在本地运行。https://t.co/DYAFpnseBA

查看原文

查看缓存全文

缓存时间: 2026/06/12 10:56

这实际上让 Gemma 4 26B-4A 在我的 MacBook Pro M1 Max 上以 72tk/s 的速度可用于编码代理。

该视频是实时的，完全在本地运行。https://t.co/DYAFpnseBA

Unsloth AI (@UnslothAI)： Gemma 4 现在使用 MTP GGUFs 运行速度提升 2 倍！仅需 6GB RAM 即可本地运行。⚡️

MTP 使 Google Gemma 4 运行速度提升约 1.4–2.2 倍，且精度无损失。

Gemma 4 12B MTP 可达 162 t/s，而无 MTP 时为 52 t/s。31B 可达 101 t/s。

GGUFs + 指南：

相似文章

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

X AI KOLs Following

atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能，在 MacBook Pro M5 Max 上通过多 token 预测（MTP）推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

X AI KOLs Timeline

Gemma 4 26B 在 RTX 4060 上运行，通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度，从而在消费级硬件上本地处理整个代码库。

在MLX中使用turboquant（及自定义内核）运行Gemma4 26b MoE

Reddit r/LocalLLaMA

一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE，实现了比llama.cpp更快的提示处理和生成速度，且内存占用更低。实现方式包括本地部署说明。

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

X AI KOLs Timeline

Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志，在8GB显存上运行Gemma 4 26B MoE，实现了250k上下文下20 token/秒的速度，这标志着廉价本地AI的一个重要里程碑。

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s