@victormustar: 支持MTP的llama.cpp使本地模型足够快,可作为日常驱动 Qwen3.6-27B密集生成(在A10G上…
摘要
llama.cpp为Qwen3.6模型添加MTP支持,在A10G硬件上将生成速度提升78%,使本地模型可作为日常驱动使用。
查看缓存全文
缓存时间: 2026/05/18 22:38
llama.cpp 引入 MTP 支持后,本地模型快得足以日常使用 🚀
Qwen3.6-27B 密集生成(在 A10G 上): 从 25 tok/s → 45 tok/s(+78%)。
在 llama-server 上使用两个参数: –spec-type draft-mtp –spec-draft-n-max 2 https://t.co/hhslKpLE71
Georgi Gerganov (@ggerganov): llama.cpp 为 Qwen3.6 系列添加了 MTP 支持
这是本地 AI 生态的一个重要里程碑。这些改动带来的性能提升非常巨大,进一步提升了在常见硬件上进行本地推理的能力。
特别感谢 Aman Gupta 主导此次开发!
相似文章
@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了! llama.cpp 原生支持 MTP(多令牌预测): - 无需额外 dr…
llama.cpp 原生支持多令牌预测(MTP),无需额外 draft 模型,利用模型内置预测头,使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速,让 27B 模型在消费级显卡上流畅运行。
@ggerganov: llama.cpp 为 Qwen3.6 系列添加 MTP 支持,这是本地AI生态系统的一个重要里程碑。性能提…
llama.cpp 为 Qwen3.6 系列添加了多令牌预测(MTP)支持,为在普通硬件上进行本地AI推理带来了巨大的性能提升。
Llama.cpp B9406 MTP mmproj 修复
Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。
在6GB显存笔记本上使用Qwen3.6-35B-A3B的MTP:不值得
在6GB显存笔记本上对llama.cpp中Qwen3.6-35B-A3B模型的多Token预测(MTP)支持进行的基准测试显示,MTP不值得使用,因为提示处理速度显著变慢,抵消了微小的生成速度提升。作者发现,对草稿KV缓存使用q4_0量化可以节省显存而不影响质量。
更多 Qwen3.6-27B MTP 的成功案例,但这次是在双路 Mi50 上
本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。