Qwen3.6 35B A3B 无审查异端版原生MTP完整保留发布 KLD 0.0015, 10/100拒绝率完整19个MTP保留支持Safetensors、GGUF、NVFP4、NVFP4 GGUF和GPTQ-Int4格式

Reddit r/LocalLLaMA 2026/05/09 01:06 模型

fine-tuned-model quantization qwen mtp-tensors gguf-format safetensors gptq

摘要

社区发布的Qwen3.6 35B A3B无审查变体版本，完整保留19个MTP张量，支持多种格式包括Safetensors、GGUF、NVFP4和GPTQ-Int4。

llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved: [https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved](https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved) llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-GGUF: [https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-GGUF](https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GGUF) llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-NVFP4-Experts-Only-GGUF: [https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-NVFP4-Experts-Only-GGUF](https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-NVFP4-Experts-Only-GGUF) llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-NVFP4-Experts-Only: [https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-NVFP4-Experts-Only](https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-NVFP4-Experts-Only) llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-GPTQ-Int4: [https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-GPTQ-Int4](https://huggingface.co/llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-GPTQ-Int4) 应大家要求发布了，所有版本均已确认完整保留MTP张量数量。附带基准测试。所有模型可在此处查看：[HuggingFace-LLMFan46](https://huggingface.co/llmfan46/models) \*所有版本均已验证完整保留MTP张量。在Safetensors格式中，Qwen3.6-35B-A3B的MTP张量显示为19个条目，因为\`gate\_up\_proj\`存储为融合张量。在GGUF格式中，该融合张量拆分为独立的gate/up专家张量，因此相同的MTP组件显示为20个条目。数量因格式而异，但MTP张量均已完整保留。

查看原文

相似文章

Qwen 3.6 35B GGUF：跨GPU和CPU的NTP vs MTP量化结果

Reddit r/LocalLLaMA

ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化，并在多个GPU和CPU上进行了详细基准测试，发现更大的量化模型通常优于较小的模型，MTP以内存为代价提供了GPU速度提升。

Qwen3.6-27B Uncensored Aggressive 发布，附带 K_P 量化！

Reddit r/LocalLLaMA

社区释出去除安全拒答的 Qwen3.6-27B，并以专为 llama.cpp 与 LM Studio 优化的 K_P GGUF 量化格式打包。

@support_huihui: 新的MTP-GGUF：huihui-ai/Huihui-Qwen3.6-27B-abliterated-MTP-GGUF 这是Qwen/Qwen3.6-27B的无审查版本，通过abliteration创建...

X AI KOLs Timeline

huihui-ai在Hugging Face上发布了Qwen3.6-27B的无审查GGUF版本，通过abliteration创建。

@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

X AI KOLs Timeline

Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本，与前序量化版本相比，推理速度显著提升（在 RTX 5090 上最高可达 114 tok/s）。

@Ex0byt: 各位，这是 Qwen3.6-27B-PRISM-PRO-DQ - 敬请享用！

X AI KOLs Timeline

发布了 Qwen3.6-27B-PRISM-PRO-DQ，这是 Qwen3.6-27B 的动态量化 GGUF 版本，去除了偏见/宣传内容，保留了原生 MTP 草稿头和视觉塔，支持无损推测解码以实现更快的推理。

相似文章

Qwen 3.6 35B GGUF：跨GPU和CPU的NTP vs MTP量化结果

Qwen3.6-27B Uncensored Aggressive 发布，附带 K_P 量化！

@support_huihui: 新的MTP-GGUF：huihui-ai/Huihui-Qwen3.6-27B-abliterated-MTP-GGUF 这是Qwen/Qwen3.6-27B的无审查版本，通过abliteration创建...

@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

@Ex0byt: 各位，这是 Qwen3.6-27B-PRISM-PRO-DQ - 敬请享用！

提交意见反馈