Unsloth 上的 MTP
摘要
Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。
[https://huggingface.co/unsloth/Qwen3.6-27B-GGUF-MTP](https://huggingface.co/unsloth/Qwen3.6-27B-GGUF-MTP) [https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF-MTP](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF-MTP)
相似文章
unsloth/Qwen3.6-27B-MTP-GGUF
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。
unsloth/Qwen3.6-35B-A3B-MTP-GGUF
本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。
havenoammo/Qwen3.6-27B-MTP-UD-GGUF
该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。
unsloth/Qwen3.6-27B-GGUF
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 量化版本,具备更强的智能体编程能力、工具调用功能,并支持 Unsloth Studio。
@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。