@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

X AI KOLs Timeline 2026/05/12 20:46 工具

llm-optimization quantization unsloth qwen gguf gpu-performance

摘要

Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本，与前序量化版本相比，推理速度显著提升（在 RTX 5090 上最高可达 114 tok/s）。

Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%！在单张 RTX 5090 上的表现如下： 114 tok/s — UD-IQ2_M (MTP) 93 tok/s — UD-Q4_K_XL (MTP) 75 tok/s — UD-Q6_K_XL (MTP) 最快的 MTP 量化版本比旧的 Q8_0 基线（35 tps）快了 3.3 倍。支持 262K 上下文长度 + 工具调用。所有性能均在单张 5090 显卡上实现。 * 编译自 MTP PR 分支 ('am17an:mtp-clean'，构建版本 b9117-ebe4fca4b)

查看原文

@Italianclownz：在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant，发布在 @huggingface @no_stp…

X AI KOLs Following

一名用户在消费级硬件上使用 Unsloth 对 Qwen 3.6 35B 进行了基准测试，对比了 MTP、TriAttention 和 TurboQuant 优化效果，发现 TurboQuant 最为有效。

更新：适用于ik_llama.cpp的Qwen-27B-IQ4_KS和Qwen-27B-IQ_KS_KT量化版本，尤其针对16GB显存的NVIDIA显卡

Reddit r/LocalLLaMA

面向16GB显存NVIDIA GPU优化的新型Qwen3.6-27B GGUF量化版本，包含实验性Trellis变体，并附带了困惑度基准测试。

@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

相似文章

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Qwen 3.6 35B GGUF：跨GPU和CPU的NTP vs MTP量化结果

unsloth/Qwen3.6-27B-MTP-GGUF

@Italianclownz：在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant，发布在 @huggingface @no_stp…

更新：适用于ik_llama.cpp的Qwen-27B-IQ4_KS和Qwen-27B-IQ_KS_KT量化版本，尤其针对16GB显存的NVIDIA显卡

提交意见反馈