@victormustar: 支持MTP的llama.cpp使本地模型足够快,可作为日常驱动 Qwen3.6-27B密集生成(在A10G上…
摘要
llama.cpp为Qwen3.6模型添加MTP支持,在A10G硬件上将生成速度提升78%,使本地模型可作为日常驱动使用。
查看缓存全文
缓存时间: 2026/05/18 22:38
llama.cpp 引入 MTP 支持后,本地模型快得足以日常使用 🚀
Qwen3.6-27B 密集生成(在 A10G 上): 从 25 tok/s → 45 tok/s(+78%)。
在 llama-server 上使用两个参数: –spec-type draft-mtp –spec-draft-n-max 2 https://t.co/hhslKpLE71
Georgi Gerganov (@ggerganov): llama.cpp 为 Qwen3.6 系列添加了 MTP 支持
这是本地 AI 生态的一个重要里程碑。这些改动带来的性能提升非常巨大,进一步提升了在常见硬件上进行本地推理的能力。
特别感谢 Aman Gupta 主导此次开发!
相似文章
@ggerganov: llama.cpp 为 Qwen3.6 系列添加 MTP 支持,这是本地AI生态系统的一个重要里程碑。性能提…
llama.cpp 为 Qwen3.6 系列添加了多令牌预测(MTP)支持,为在普通硬件上进行本地AI推理带来了巨大的性能提升。
在6GB显存笔记本上使用Qwen3.6-35B-A3B的MTP:不值得
在6GB显存笔记本上对llama.cpp中Qwen3.6-35B-A3B模型的多Token预测(MTP)支持进行的基准测试显示,MTP不值得使用,因为提示处理速度显著变慢,抵消了微小的生成速度提升。作者发现,对草稿KV缓存使用q4_0量化可以节省显存而不影响质量。
更多 Qwen3.6-27B MTP 的成功案例,但这次是在双路 Mi50 上
本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。
@Snixtp: https://x.com/Snixtp/status/2055734339346768225
某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。
在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持
在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测(MTP)支持进行技术测试,比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。