@Freerunnering: 这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。这个视频是实时的,…

X AI KOLs Timeline 模型

摘要

Unsloth AI宣布,Gemma 4在MTP GGUFs上运行速度快了2倍,使得在如MacBook Pro M1 Max这样的硬件上以72 tokens/s的速度运行本地编码代理成为可能。

这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。 这个视频是实时的,完全在本地运行。https://t.co/DYAFpnseBA
查看原文
查看缓存全文

缓存时间: 2026/06/12 10:56

这实际上让 Gemma 4 26B-4A 在我的 MacBook Pro M1 Max 上以 72tk/s 的速度可用于编码代理。

该视频是实时的,完全在本地运行。https://t.co/DYAFpnseBA

Unsloth AI (@UnslothAI): Gemma 4 现在使用 MTP GGUFs 运行速度提升 2 倍!仅需 6GB RAM 即可本地运行。⚡️

MTP 使 Google Gemma 4 运行速度提升约 1.4–2.2 倍,且精度无损失。

Gemma 4 12B MTP 可达 162 t/s,而无 MTP 时为 52 t/s。31B 可达 101 t/s。

GGUFs + 指南:

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。