提取的MTP张量GGUF文件——用于嫁接的较小捐赠模型。

Reddit r/LocalLLaMA 2026/05/07 23:28 工具

llama.cpp gguf mtp tensor-grafting local-llm model-conversion

摘要

作者提供了仅包含Qwen3.6模型MTP张量的提取GGUF文件，用户可通过显著小于完整模型文件的下载大小来嫁接张量。

用于嫁接MTP张量的[脚本](https://gist.github.com/buzz/1c439684d5e3f36492ae9f64ef7e3f67)需要一个完整的GGUF模型文件。我觉得这有点大，于是让本地运行的Gemma写了个程序，只提取所需的张量。结果得到了两个伪GGUF文件，大小分别仅为900MB（[35A3B](https://huggingface.co/IHaveNoClueAndIMustPost/Qwen3.6-35A3B-MTP-TENSORS-ONLY)）和450MB（[27B](https://huggingface.co/IHaveNoClueAndIMustPost/Qwen3.6-27b-MTP-TENSORS-ONLY)），仅包含张量且与脚本完全兼容。对于那些只想转换现有库或节省带宽的用户来说，下载速度比原始的38GB和29GB模型快得多。测试使用SHA256哈希值进行，将使用这些迷你GGUF制作的模型与使用完整模型制作的模型进行比较（结果相同），并进行了一些简短对话。致谢：[am17an](https://huggingface.co/am17an)提供原始GGUF文件，[buzz](https://gist.github.com/buzz)提供原始脚本。免责声明：MTP实现尚未最终确定。这些模型随时可能失效或过时。请勿删除原始模型，以防转换过程有更新。测试仅在我使用的两个模型上进行，其他变体可能效果不佳或完全无法使用。此外，这是用Q4_1模型完全在毫无头绪的情况下随性编码（vibecoding）的。

查看原文

提取的MTP张量GGUF文件——用于嫁接的较小捐赠模型。

相似文章

havenoammo/Qwen3.6-27B-MTP-UD-GGUF

@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

unsloth/Qwen3.6-27B-MTP-GGUF

Unsloth 上的 MTP

Qwen3.6 35B A3B 无审查异端版原生MTP完整保留发布 KLD 0.0015, 10/100拒绝率完整19个MTP保留支持Safetensors、GGUF、NVFP4、NVFP4 GGUF和GPTQ-Int4格式

提交意见反馈