@victormustar: 支持MTP的llama.cpp使本地模型足够快,可作为日常驱动 Qwen3.6-27B密集生成(在A10G上…

X AI KOLs Following 工具

摘要

llama.cpp为Qwen3.6模型添加MTP支持,在A10G硬件上将生成速度提升78%,使本地模型可作为日常驱动使用。

llama.cpp with MTP support makes local models fast enough to use as daily drivers 🚀 Qwen3.6-27B密集生成(在A10G上): 从25 tok/s → 45 tok/s(+78%)。 llama-server上的两个标志: --spec-type draft-mtp --spec-draft-n-max 2 https://t.co/hhslKpLE71
查看原文
查看缓存全文

缓存时间: 2026/05/18 22:38

llama.cpp 引入 MTP 支持后,本地模型快得足以日常使用 🚀

Qwen3.6-27B 密集生成(在 A10G 上): 从 25 tok/s → 45 tok/s(+78%)。

在 llama-server 上使用两个参数: –spec-type draft-mtp –spec-draft-n-max 2 https://t.co/hhslKpLE71

Georgi Gerganov (@ggerganov): llama.cpp 为 Qwen3.6 系列添加了 MTP 支持

这是本地 AI 生态的一个重要里程碑。这些改动带来的性能提升非常巨大,进一步提升了在常见硬件上进行本地推理的能力。

特别感谢 Aman Gupta 主导此次开发!

相似文章

在6GB显存笔记本上使用Qwen3.6-35B-A3B的MTP:不值得

Reddit r/LocalLLaMA

在6GB显存笔记本上对llama.cpp中Qwen3.6-35B-A3B模型的多Token预测(MTP)支持进行的基准测试显示,MTP不值得使用,因为提示处理速度显著变慢,抵消了微小的生成速度提升。作者发现,对草稿KV缓存使用q4_0量化可以节省显存而不影响质量。

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。