提取的MTP张量GGUF文件——用于嫁接的较小捐赠模型。
摘要
作者提供了仅包含Qwen3.6模型MTP张量的提取GGUF文件,用户可通过显著小于完整模型文件的下载大小来嫁接张量。
用于嫁接MTP张量的[脚本](https://gist.github.com/buzz/1c439684d5e3f36492ae9f64ef7e3f67)需要一个完整的GGUF模型文件。我觉得这有点大,于是让本地运行的Gemma写了个程序,只提取所需的张量。结果得到了两个伪GGUF文件,大小分别仅为900MB([35A3B](https://huggingface.co/IHaveNoClueAndIMustPost/Qwen3.6-35A3B-MTP-TENSORS-ONLY))和450MB([27B](https://huggingface.co/IHaveNoClueAndIMustPost/Qwen3.6-27b-MTP-TENSORS-ONLY)),仅包含张量且与脚本完全兼容。对于那些只想转换现有库或节省带宽的用户来说,下载速度比原始的38GB和29GB模型快得多。测试使用SHA256哈希值进行,将使用这些迷你GGUF制作的模型与使用完整模型制作的模型进行比较(结果相同),并进行了一些简短对话。致谢:[am17an](https://huggingface.co/am17an)提供原始GGUF文件,[buzz](https://gist.github.com/buzz)提供原始脚本。免责声明:MTP实现尚未最终确定。这些模型随时可能失效或过时。请勿删除原始模型,以防转换过程有更新。测试仅在我使用的两个模型上进行,其他变体可能效果不佳或完全无法使用。此外,这是用Q4_1模型完全在毫无头绪的情况下随性编码(vibecoding)的。
相似文章
havenoammo/Qwen3.6-27B-MTP-UD-GGUF
该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。
@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。
unsloth/Qwen3.6-27B-MTP-GGUF
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。
Unsloth 上的 MTP
Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。
Qwen3.6 35B A3B 无审查异端版原生MTP完整保留发布 KLD 0.0015, 10/100拒绝率 完整19个MTP保留 支持Safetensors、GGUF、NVFP4、NVFP4 GGUF和GPTQ-Int4格式
社区发布的Qwen3.6 35B A3B无审查变体版本,完整保留19个MTP张量,支持多种格式包括Safetensors、GGUF、NVFP4和GPTQ-Int4。