Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein(神经元级手术)

Reddit r/LocalLLaMA 模型

摘要

社区成员通过复制健康邻居权重,修复了 Qwen3.6-35B-A3B MoE 中的“死亡”神经元,并放出修复后的 GGUF 与 FP8 safetensors 版本。

大家好。在一次逐张量、逐神经元的调试过程中,我发现 MoE 模型里某些张量层的神经元会“死亡”(值为零)。[日志见此。](https://huggingface.co/LuffyTheFox/Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein-Safetensors/raw/main/Qwen3.6-35B-A3B-Plus-Uncensored-fp8_e4m3fn.txt) *例如,在 Qwen3.6 35B A3B Q8_0 量化的 blk.0.ffn_gate_exps.weight 与 blk.0.ffn_up_exps.weight 中,我发现了 **40% 的零值神经元**。* 而在 Qwen3.5 9B 里却没有这种全零块,所有块都有值。 *不清楚原因何在,我自己从未训练过 LLM,但问题确实存在。我正在面试的一家公司用不同方法也独立验证了这些发现。我认为这正是 LLM 训练过程中性能下降的主因。* 我在 Google Colab 免费版 CPU 上尽可能做了二进制级修复:把健康邻居的二进制权重复制粘贴到死亡神经元,并做线性插值,共恢复了 `750 万个零块(Q8 量化)` 的神经元。 修复后的 GGUF 模型:[https://huggingface.co/LuffyTheFox/Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein-GGUF](https://huggingface.co/LuffyTheFox/Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein-GGUF) 以及 .safetensors fp8_e4m3fn 版本:[https://huggingface.co/LuffyTheFox/Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein-Safetensors](https://huggingface.co/LuffyTheFox/Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein-Safetensors) 我通过此脚本把 Q8_0 转成 .safetensors:[https://huggingface.co/LuffyTheFox/Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein-Safetensors/raw/main/gguf_to_safetensors.py](https://huggingface.co/LuffyTheFox/Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein-Safetensors/raw/main/gguf_to_safetensors.py) *FP8 无审查版 .safetensors 可继续训练——梯度无零值。* 本模型基于:[https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive](https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive) ,感谢 [HauhauCS](https://huggingface.co/HauhauCS) 的出色工作。 System prompt:[https://pastebin.com/pU25DVnB](https://pastebin.com/pU25DVnB) 对话模板:[https://pastebin.com/Dy2fmmpN](https://pastebin.com/Dy2fmmpN) 推荐量化:`MXFP4_MOE 与 Q8_0` **推荐设置(LM Studio):** |参数|值| |:-|:-| |Temperature|0.7| |Top K Sampling|20| |Presence Penalty|1.5| |Repeat Penalty|Disabled| |Top P Sampling|0.8| |Min P Sampling|0| |Seed|42| 玩得开心 ^_^ 附:Qwen 团队已发布 3.6 27B 版。我的 RTX 3060 12GB 跑不动,但等 HauhauCS 放出 27B 无审查版后,我会继续为社区“治疗”并发布。
查看原文

相似文章

Qwen3.6-27B-GGUF 重磅发布!

Reddit r/LocalLLaMA

社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。

Qwen/Qwen3.6-35B-A3B-FP8

Hugging Face Models Trending

阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。

Jackrong/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending

Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。