@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…
摘要
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。
Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%!在单张 RTX 5090 上的表现如下:
114 tok/s — UD-IQ2_M (MTP)
93 tok/s — UD-Q4_K_XL (MTP)
75 tok/s — UD-Q6_K_XL (MTP)
最快的 MTP 量化版本比旧的 Q8_0 基线(35 tps)快了 3.3 倍。支持 262K 上下文长度 + 工具调用。所有性能均在单张 5090 显卡上实现。
* 编译自 MTP PR 分支 ('am17an:mtp-clean',构建版本 b9117-ebe4fca4b)
相似文章
Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s
使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。
Qwen 3.6 35B GGUF:跨GPU和CPU的NTP vs MTP量化结果
ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化,并在多个GPU和CPU上进行了详细基准测试,发现更大的量化模型通常优于较小的模型,MTP以内存为代价提供了GPU速度提升。
unsloth/Qwen3.6-27B-MTP-GGUF
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。
@Italianclownz:在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant,发布在 @huggingface @no_stp…
一名用户在消费级硬件上使用 Unsloth 对 Qwen 3.6 35B 进行了基准测试,对比了 MTP、TriAttention 和 TurboQuant 优化效果,发现 TurboQuant 最为有效。
更新:适用于ik_llama.cpp的Qwen-27B-IQ4_KS和Qwen-27B-IQ_KS_KT量化版本,尤其针对16GB显存的NVIDIA显卡
面向16GB显存NVIDIA GPU优化的新型Qwen3.6-27B GGUF量化版本,包含实验性Trellis变体,并附带了困惑度基准测试。