LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%

Reddit r/LocalLLaMA 工具

摘要

llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。

为LLaMA.cpp实现了多令牌预测。将Gemma 4助手模型量化为GGUF格式。在MacBook Pro M5Max上运行测试。Gemma 26B使用MTP生成令牌速度提升40%。提示:用递归编写一个Python程序查找第n个斐波那契数。输出:LLaMA.cpp: 97 tokens/s; LLaMA.cpp + MTP: 138 tokens/s。Gemma4-assistant GGUF量化模型:[https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf](https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf) 本地AI模型应用:[http://atomic.chat](http://atomic.chat) 修补后的llama.cpp:[https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant)
查看原文

相似文章

MTP 关键在于接受率

Reddit r/LocalLLaMA

一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP(多令牌预测)基准测试,发现它在代码生成方面表现出色(速度快 1.53 倍,接受率 66%),但对 JSON 输出不利(速度慢 50%,接受率仅 8%),对长篇散文则影响中性,表明当令牌接受率低于 50% 时,MTP 的优势便荡然无存。

MLX 上新的 Gemma 4 MTP?

Reddit r/LocalLLaMA

Google 发布了用于 Gemma 4 的多 token 预测草稿器,通过推测性解码加速推理,但目前对 MLX 的支持尚未确认或不可用。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。