@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline 2026/05/16 19:37 新闻

llama-cpp qwen multi-token-prediction rtx-3090 benchmark local-inference gguf

摘要

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试，发现MTP在长上下文（32k-64k）下生成速度最高可提升2.37倍，但预填充较慢且暂不支持并发。

https://t.co/Vy4UrWlKLc

查看原文

查看缓存全文

缓存时间: 2026/05/17 03:27

Qwen3.6 27B 与 MTP 在单张 RTX 3090 上的对比测试

我在 llama.cpp 中测试了“常规“的 Qwen3.6 27B GGUF 与 @UnslothAI 发布的新 MTP GGUF 变体，使用一张 24GB 显存的 RTX 3090。

目标很简单：看看 MTP 在本地消费级硬件上是否真的有帮助，尤其是在长上下文场景下。

测试配置：

GPU：单张 RTX 3090
运行时：llama.cpp
量化：Q4_K_S GGUF
KV 缓存：K 和 V 均为 q8_0
GPU 功耗限制：250W
测试的提示长度：4k、16k、32k、64k

简短总结

MTP 速度很快，但并非所有场景都适用。

在 4k 上下文下，常规基线更快。但随着上下文长度增加，MTP 速度也大幅提升。

生成速度：

MTP 在短提示场景下并不占优，但在长上下文生成中变得非常有用。

在 32k 时，生成速度提升超过 2 倍。在 64k 时，相比基线甚至更快。

这看起来好得让人难以置信，肯定有某种权衡。没错，确实存在一个小权衡。

权衡：预填充变慢

根据我的测试，缺点在于提示处理（prefill/prompt processing）环节。

在所有测试的上下文长度下，MTP 的预填充/提示处理速度都更慢。本次测试中，MTP 的提示处理速度约为基线速度的 69%–86%，即最多慢 31%，最少慢 14%。

这可能是一个重要的注意事项。

如果你的工作负载主要是短提示、短回复、或者大量新请求（预填充占主导），那么 MTP 可能不会感觉更快。在 4k 上下文下，它甚至整体生成速度也更慢。

但如果你主要处理长上下文生成——在加载完大型提示后，解码速度更为重要——那么 MTP 的表现就好得多。

长上下文下的表现

在 32k 和 64k 下，MTP 的优势非常明显。

32k：

基线：27.15 tok/s
MTP：57.29 tok/s
加速比：2.11 倍

64k：

基线：21.88 tok/s
MTP：51.89 tok/s
加速比：2.37 倍

这是在单张 3090 上，而非高显存工作站显卡。

测试使用了 q8_0 KV 缓存，这有助于让长上下文在 24GB 显存中运行。

并发测试结果

由于 llama.cpp 的 MTP 目前不支持 -np > 1（据 Unsloth 模型卡说明），因此无法测试高于 p1 的并发 MTP。所以这里公平的 MTP 比较仅限于 p1 模式。

即便如此，我还是记录了基线 Qwen3.6 27B 在 32k 下的结果：

p8 失败并不意外。8 个 32k 插槽会带来巨大的 KV 缓存内存需求，3090 在尝试再分配 1197 MiB 时显存耗尽。

我的结论

对于本地 llama.cpp 用户来说，MTP 很有前景，但取决于使用场景。

短提示场景：基线可能仍然更好。
长上下文生成：MTP 可以快得多。
预填充速度在 MTP 下更慢。
当前 llama.cpp 对 MTP 的支持仅限于 p1，因此尚不支持并发。
在 24GB 显存下，使用 q8_0 KV 缓存时，基线可以运行 32k p4，但 32k p8 无法容纳。

MTP 似乎非常适合 Hermes Agent 和 @openclaw 以及智能体编码这类场景——在这些场景中，你更关心生成速度而非提示处理速度。

相似文章

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持

Reddit r/LocalLLaMA

在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测（MTP）支持进行技术测试，比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。

Qwen 3.6-27B Dense 与 MTP 在 Strix Halo Windows 上的基准测试

Reddit r/LocalLLaMA

Qwen 3.6-27B Dense 和 MTP 变体在 Strix Halo Windows 上通过 llama.cpp 运行的社区基准测试，展示了各项任务的 token/s 速度。

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

Reddit r/LocalLLaMA

对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明，基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升（最高达 +53%）。

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

Qwen3.6 27B 与 MTP 在单张 RTX 3090 上的对比测试

简短总结

权衡：预填充变慢

长上下文下的表现

并发测试结果

我的结论

相似文章

更多 Qwen3.6-27B MTP 的成功案例，但这次是在双路 Mi50 上

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持

Qwen 3.6-27B Dense 与 MTP 在 Strix Halo Windows 上的基准测试

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

提交意见反馈