既然MTP已合并……你在2x3090上运行Qwen 3.6 35B的最佳输出是什么?

Reddit r/LocalLLaMA 工具

摘要

讨论在llama.cpp中使用新MTP合并功能在双3090上运行Qwen 3.6 35B时的性能权衡,用户分享token速度并寻求最佳配置。

我们通过club 3090获得了27B的出色输出,但那些喜欢在双3090上享受35B极速的人呢?之前使用分层时,我获得了1500 p/p和120 t/g,但上周测试时MTP将其降至80 t/g。我坚持使用CPU溢出回退,即3500 p/p和80 t/g,直到有人像club 3090的天才们那样想出办法。到目前为止,你尝试了新的llama.cpp MTP合并功能吗?与之前的35B最佳构建相比,有大的提升吗?
查看原文

相似文章

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。