@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…

X AI KOLs Timeline 工具

摘要

Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。

Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%!在单张 RTX 5090 上的表现如下: 114 tok/s — UD-IQ2_M (MTP) 93 tok/s — UD-Q4_K_XL (MTP) 75 tok/s — UD-Q6_K_XL (MTP) 最快的 MTP 量化版本比旧的 Q8_0 基线(35 tps)快了 3.3 倍。支持 262K 上下文长度 + 工具调用。所有性能均在单张 5090 显卡上实现。 * 编译自 MTP PR 分支 ('am17an:mtp-clean',构建版本 b9117-ebe4fca4b)
查看原文

相似文章

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。

Qwen 3.6 35B GGUF:跨GPU和CPU的NTP vs MTP量化结果

Reddit r/LocalLLaMA

ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化,并在多个GPU和CPU上进行了详细基准测试,发现更大的量化模型通常优于较小的模型,MTP以内存为代价提供了GPU速度提升。

unsloth/Qwen3.6-27B-MTP-GGUF

Hugging Face Models Trending

Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。