LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

Reddit r/LocalLLaMA 2026/05/08 00:27 工具

摘要

llama.cpp中新的多令牌预测（MTP）实现为Gemma 4模型带来了40%的速度提升，已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。

为LLaMA.cpp实现了多令牌预测。将Gemma 4助手模型量化为GGUF格式。在MacBook Pro M5Max上运行测试。Gemma 26B使用MTP生成令牌速度提升40%。提示：用递归编写一个Python程序查找第n个斐波那契数。输出：LLaMA.cpp: 97 tokens/s; LLaMA.cpp + MTP: 138 tokens/s。Gemma4-assistant GGUF量化模型：[https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf](https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf) 本地AI模型应用：[http://atomic.chat](http://atomic.chat) 修补后的llama.cpp：[https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant)

查看原文

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

相似文章

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

MTP 关键在于接受率

MLX 上新的 Gemma 4 MTP？

google/gemma-4-31B-it-assistant

@ivanfioravanti: llamacpp 即将支持 MTP！

提交意见反馈