@dealignai: Qwen3.6-27b 和 35b 的 MXFP4 与 MXFP8 CRACK 版本现已推出,支持 MTP。尽享无审查的极速体验!35b mxfp4: https://huggingface…
摘要
DealignAI 发布了 Qwen3.6-27B 和 35B 模型的 CRACK-abliterated 以及 MXFP4/MXFP8 量化版本,保留了 MTP,可在 Apple Silicon 上实现更快的推测解码。
查看缓存全文
缓存时间: 2026/05/25 02:40
Qwen3.6-27b 和 35b 的 MXFP4 与 MXFP8 CRACK 版本现已发布,支持 MTP。尽享无审查的极速体验!
35b mxfp4: https://huggingface.co/dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP
35b mxfp8: https://huggingface.co/dealignai/Qwen3.6-35B-A3B-MXFP8-CRACK-MTP
27b mxfp4: https://huggingface.co/dealignai/Qwen3.6-27B-MXFP4-CRACK-MTP
27b mxfp8: https://huggingface.co/dealignai/Qwen3.6-27B-MXFP8-CRACK-MTP
dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP · Hugging Face
来源:https://huggingface.co/dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP
Qwen 3.6 35B-A3B — MXFP4 CRACK + d3 MTP
CRACK 消融处理 · MXFP4(4 位微缩放) · d3 MTP 自推测(1.51 倍加速) · 视觉 + 视频 · 推理开关 · 18 GB
Ko-fi (https://ko-fi.com/dealignai)
这是什么?
这是 Qwen 3.6 35B-A3B (https://huggingface.co/Qwen/Qwen3.6-35B-A3B) —— 一个视觉语言模型(混合专家模型,256 个路由专家,10 个激活专家,混合 SSM + 全注意力,40 层,原生图像 + 视频理解),已进行以下处理:
- CRACK 消融处理——在权重层面移除了拒绝行为,因此它能够在各类任务中遵从指令而不拒绝,同时保持其知识、推理能力和视觉能力完整。
- MXFP4(4 位微缩放)量化,面向 Apple Silicon 上的 MLX —— 18 GB。
- 保留 MTP——原生多 token 预测头部被保留并同样进行了消融处理,因此d3 自推测解码可在支持 MTP 的运行时(vMLX)上工作(约 1.51 倍加速)。
视觉和视频处理功能完全保留。
结果
通过 vMLX 推理引擎评估。HarmBench 使用严格分类器评分(拒绝循环、空/模板转储及思考痕迹泄露)。MMLU 为标准 57 科目选择题基准。
| 指标 | 结果 |
|---|---|
| HarmBench-320(遵从率 / ASR) | 99.4%(318/320) |
| MMLU(57 科目) | 74.6% |
| d3 MTP 加速比 | 1.51×(对比自回归) |
| 消融处理保留了模型的知识和推理能力 —— 在直接模式和推理模式下均保持连贯。 |
功能特性
- 视觉 + 视频——
图像-文本到文本,原生帧/视频理解功能保留。 - d3 MTP 推测解码——原生 MTP 头部保留并消融处理 → 在支持 MTP 的运行时上生成速度提升约 1.51 倍。
- 推理开关——
enable_thinking=True(默认,完整思维链)或enable_thinking=False(直接回答)。
使用方法
使用 vMLX (https://vmlx.net/)(推荐 —— 支持 VL + 视频 + 原生 MTP)或支持 Qwen 3.6 的 MLX 运行时运行。
推荐采样参数(来自模型的 generation_config):temperature 1.0, top_p 0.95, top_k 20。
# vMLX 兼容 OpenAI 的端点
# POST /v1/chat/completions
{
"model": "dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP",
"messages": [{"role": "user", "content": "..."}],
"temperature": 1.0, "top_p": 0.95, "top_k": 20,
"enable_thinking": true
}
关于 CRACK
CRACK(受控拒绝消融与校准剔除)通过将拒绝方向从残差流写入矩阵中投影出去,在权重层面移除安全拒绝行为,其强度经过校准以保持推理质量和连贯性。
支持 dealignai
所有模型均基于原创研究构建并免费发布。
在 Ko-fi 上支持我们 (https://ko-fi.com/dealignai) —— 会员可获得早期访问权限和额外福利。
Ko-fi (https://ko-fi.com/dealignai) · X @dealignai (https://x.com/dealignai) · dealign.ai (https://dealign.ai/)
查看我们的研究:前沿模型的安全泛化 (https://dealign.ai/quantsteer.html)
dealign.ai
免责声明
此模型的安全拒绝行为已为研究目的而移除。它将在所有类别中遵从指令而不会拒绝。您对如何使用它以及遵守所有适用法律负全部责任。为人工智能安全研究和授权安全测试而发布。
相似文章
Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit
用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本,称赞其速度快、智能化程度高且没有安全免责声明。
Qwen3.6-35B-A3B-Uncensored-Genesis-APEX-MTP
Qwen模型(Qwen3.6-35B-A3B)的精调无审查版本,支持MTP和APEX量化,经测试在200k上下文下稳定运行,推荐在LM Studio中使用。
mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-GGUF 刚刚发布!
Mudler 发布了 Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled 模型的 APEX-MTP GGUF 量化版本,将多 token 预测头捆绑在一起,用于与 llama.cpp 的自推测解码。
@Ex0byt: 各位,这是 Qwen3.6-27B-PRISM-PRO-DQ - 敬请享用!
发布了 Qwen3.6-27B-PRISM-PRO-DQ,这是 Qwen3.6-27B 的动态量化 GGUF 版本,去除了偏见/宣传内容,保留了原生 MTP 草稿头和视觉塔,支持无损推测解码以实现更快的推理。
@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。