LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
摘要
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。
为LLaMA.cpp实现了多令牌预测。将Gemma 4助手模型量化为GGUF格式。在MacBook Pro M5Max上运行测试。Gemma 26B使用MTP生成令牌速度提升40%。提示:用递归编写一个Python程序查找第n个斐波那契数。输出:LLaMA.cpp: 97 tokens/s; LLaMA.cpp + MTP: 138 tokens/s。Gemma4-assistant GGUF量化模型:[https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf](https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf) 本地AI模型应用:[http://atomic.chat](http://atomic.chat) 修补后的llama.cpp:[https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant)
相似文章
@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快,在 MacBook Pr… 上的 token 生成速度提升约 40%
atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能,在 MacBook Pro M5 Max 上通过多 token 预测(MTP)推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。
MTP 关键在于接受率
一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP(多令牌预测)基准测试,发现它在代码生成方面表现出色(速度快 1.53 倍,接受率 66%),但对 JSON 输出不利(速度慢 50%,接受率仅 8%),对长篇散文则影响中性,表明当令牌接受率低于 50% 时,MTP 的优势便荡然无存。
MLX 上新的 Gemma 4 MTP?
Google 发布了用于 Gemma 4 的多 token 预测草稿器,通过推测性解码加速推理,但目前对 MLX 的支持尚未确认或不可用。
google/gemma-4-31B-it-assistant
Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。
@ivanfioravanti: llamacpp 即将支持 MTP!
llamacpp 即将支持多令牌预测(MTP),提升推理效率。