@victormustar: 支持MTP的llama.cpp使本地模型足够快，可作为日常驱动 Qwen3.6-27B密集生成（在A10G上…

X AI KOLs Following 2026/05/18 19:27 工具

摘要

llama.cpp为Qwen3.6模型添加MTP支持，在A10G硬件上将生成速度提升78%，使本地模型可作为日常驱动使用。

llama.cpp with MTP support makes local models fast enough to use as daily drivers 🚀 Qwen3.6-27B密集生成（在A10G上）：从25 tok/s → 45 tok/s（+78%）。 llama-server上的两个标志： --spec-type draft-mtp --spec-draft-n-max 2 https://t.co/hhslKpLE71

查看原文

查看缓存全文

缓存时间: 2026/05/18 22:38

llama.cpp 引入 MTP 支持后，本地模型快得足以日常使用 🚀

Qwen3.6-27B 密集生成（在 A10G 上）：从 25 tok/s → 45 tok/s（+78%）。

在 llama-server 上使用两个参数： –spec-type draft-mtp –spec-draft-n-max 2 https://t.co/hhslKpLE71

Georgi Gerganov (@ggerganov)： llama.cpp 为 Qwen3.6 系列添加了 MTP 支持

这是本地 AI 生态的一个重要里程碑。这些改动带来的性能提升非常巨大，进一步提升了在常见硬件上进行本地推理的能力。

特别感谢 Aman Gupta 主导此次开发！

相似文章

@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了！ llama.cpp 原生支持 MTP（多令牌预测）： - 无需额外 dr…

X AI KOLs Timeline

llama.cpp 原生支持多令牌预测(MTP)，无需额外 draft 模型，利用模型内置预测头，使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速，让 27B 模型在消费级显卡上流畅运行。

@ggerganov: llama.cpp 为 Qwen3.6 系列添加 MTP 支持，这是本地AI生态系统的一个重要里程碑。性能提…

X AI KOLs Following

llama.cpp 为 Qwen3.6 系列添加了多令牌预测（MTP）支持，为在普通硬件上进行本地AI推理带来了巨大的性能提升。

Llama.cpp B9406 MTP mmproj 修复

Reddit r/LocalLLaMA

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型（例如 Qwen3.6-35B-A3B）时出现的崩溃问题 (GGML_ASSERT)。

在6GB显存笔记本上使用Qwen3.6-35B-A3B的MTP：不值得