既然MTP已合并……你在2x3090上运行Qwen 3.6 35B的最佳输出是什么？

Reddit r/LocalLLaMA 2026/05/16 22:19 工具

llama-cpp mtp qwen model-inference 3090 gpu performance

摘要

讨论在llama.cpp中使用新MTP合并功能在双3090上运行Qwen 3.6 35B时的性能权衡，用户分享token速度并寻求最佳配置。

我们通过club 3090获得了27B的出色输出，但那些喜欢在双3090上享受35B极速的人呢？之前使用分层时，我获得了1500 p/p和120 t/g，但上周测试时MTP将其降至80 t/g。我坚持使用CPU溢出回退，即3500 p/p和80 t/g，直到有人像club 3090的天才们那样想出办法。到目前为止，你尝试了新的llama.cpp MTP合并功能吗？与之前的35B最佳构建相比，有大的提升吗？

查看原文

相似文章

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试，发现MTP在长上下文（32k-64k）下生成速度最高可提升2.37倍，但预填充较慢且暂不支持并发。

Qwen 3.5 122B MoE OC 在单张 3090 上以 35 t/s 运行——完整本地堆栈解析

Reddit r/openclaw

在单张 RTX 3090 上使用定制版 llama.cpp（ik_llama.cpp）以 35 t/s 运行 Qwen 3.5 122B MoE 的详细解析，其中采用了融合 MoE 操作和专家层卸载到 CPU 内存的技术，性能显著优于原版 llama.cpp MTP。

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

Reddit r/LocalLLaMA

对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明，基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升（最高达 +53%）。

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持