@Italianclownz:在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant,发布在 @huggingface @no_stp…

X AI KOLs Following 新闻

摘要

一名用户在消费级硬件上使用 Unsloth 对 Qwen 3.6 35B 进行了基准测试,对比了 MTP、TriAttention 和 TurboQuant 优化效果,发现 TurboQuant 最为有效。

在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant,发布于 @huggingface @no_stp_on_snek TurboQuant 表现最佳,优于 MTP。TriAttention 仅在更大的上下文窗口下才显示出增益。 硬件配置:RTX 3060 12 GB,i5 第八代,46 GB 内存 https://t.co/RIlcG7VvRk
查看原文
查看缓存全文

缓存时间: 2026/05/13 00:32

在 @huggingface 上测试了 @UnslothAI 和 @Alibaba_Qwen 的 Qwen 3.6 35B A3B MTP MXFP4_MoE 模型,分别应用了 MTP、TriAttention 和 TurboQuant 技术。

@no_stp_on_snek TurboQuant 表现最佳,胜过 MTP。TriAttention 仅在较长的上下文窗口中显示出性能提升。

硬件配置:RTX 3060 12 GB,第 8 代 i5 处理器,46 GB 内存 https://t.co/RIlcG7VvRk

相似文章

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。

Qwen 3.6 35B GGUF:跨GPU和CPU的NTP vs MTP量化结果

Reddit r/LocalLLaMA

ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化,并在多个GPU和CPU上进行了详细基准测试,发现更大的量化模型通常优于较小的模型,MTP以内存为代价提供了GPU速度提升。