@Italianclownz：在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant，发布在 @huggingface @no_stp…

X AI KOLs Following 2026/05/12 20:42 新闻

benchmark optimization quantization mixture-of-experts unsloth qwen

摘要

一名用户在消费级硬件上使用 Unsloth 对 Qwen 3.6 35B 进行了基准测试，对比了 MTP、TriAttention 和 TurboQuant 优化效果，发现 TurboQuant 最为有效。

在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant，发布于 @huggingface @no_stp_on_snek TurboQuant 表现最佳，优于 MTP。TriAttention 仅在更大的上下文窗口下才显示出增益。硬件配置：RTX 3060 12 GB，i5 第八代，46 GB 内存 https://t.co/RIlcG7VvRk

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 00:32

在 @huggingface 上测试了 @UnslothAI 和 @Alibaba_Qwen 的 Qwen 3.6 35B A3B MTP MXFP4_MoE 模型，分别应用了 MTP、TriAttention 和 TurboQuant 技术。

@no_stp_on_snek TurboQuant 表现最佳，胜过 MTP。TriAttention 仅在较长的上下文窗口中显示出性能提升。

硬件配置：RTX 3060 12 GB，第 8 代 i5 处理器，46 GB 内存 https://t.co/RIlcG7VvRk

@Italianclownz：在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant，发布在 @huggingface @no_stp…

相似文章

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

更多 Qwen3.6-27B MTP 的成功案例，但这次是在双路 Mi50 上

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

提交意见反馈