MLX 上新的 Gemma 4 MTP？

Reddit r/LocalLLaMA 2026/05/07 18:24 模型

gemma speculative-decoding mlx inference-optimization google-ai

摘要

Google 发布了用于 Gemma 4 的多 token 预测草稿器，通过推测性解码加速推理，但目前对 MLX 的支持尚未确认或不可用。

如果你还没听说，Google 刚刚发布了用于 Gemma 4 的多 token 预测草稿器，这是一种推测性解码方法，将主模型与轻量级草稿器配对。它可以提前预测多个 token，然后并行验证，将推理速度提升 2-3 倍。有人尝试过在 MLX 上使用它吗？我试过但没有成功。似乎目前还不支持。

查看原文

相似文章

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 MTP 草稿模型（drafter），适用于 Gemma 4 系列模型，通过推测解码（speculative decoding）实现显著的解码加速，同时保持完全一致的生成质量，适用于低延迟应用场景。

@googlegemma: Gemma 4 在手机上速度提升 3 倍！看看推测解码带来的不同！Multi-Token Predi…

X AI KOLs Timeline

Google 的 Gemma 4 通过推测解码和多 Token 预测，推理速度提升高达 3 倍，可实现高效的设备端部署。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4，这是一个开源权重的多模态模型家族，支持文本、图像、视频和音频，具备增强的推理和编码能力，并通过多令牌预测（MTP）实现高达 2 倍的解码速度提升。

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

Reddit r/LocalLLaMA

llama.cpp中新的多令牌预测（MTP）实现为Gemma 4模型带来了40%的速度提升，已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。

MTP 关键在于接受率

Reddit r/LocalLLaMA

一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP（多令牌预测）基准测试，发现它在代码生成方面表现出色（速度快 1.53 倍，接受率 66%），但对 JSON 输出不利（速度慢 50%，接受率仅 8%），对长篇散文则影响中性，表明当令牌接受率低于 50% 时，MTP 的优势便荡然无存。

提交意见反馈