@Italianclownz:在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant,发布在 @huggingface @no_stp…

X AI KOLs Following 新闻

摘要

一名用户在消费级硬件上使用 Unsloth 对 Qwen 3.6 35B 进行了基准测试,对比了 MTP、TriAttention 和 TurboQuant 优化效果,发现 TurboQuant 最为有效。

在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant,发布于 @huggingface @no_stp_on_snek TurboQuant 表现最佳,优于 MTP。TriAttention 仅在更大的上下文窗口下才显示出增益。 硬件配置:RTX 3060 12 GB,i5 第八代,46 GB 内存 https://t.co/RIlcG7VvRk
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 00:32

在 @huggingface 上测试了 @UnslothAI 和 @Alibaba_Qwen 的 Qwen 3.6 35B A3B MTP MXFP4_MoE 模型,分别应用了 MTP、TriAttention 和 TurboQuant 技术。

@no_stp_on_snek TurboQuant 表现最佳,胜过 MTP。TriAttention 仅在较长的上下文窗口中显示出性能提升。

硬件配置:RTX 3060 12 GB,第 8 代 i5 处理器,46 GB 内存 https://t.co/RIlcG7VvRk

相似文章

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。