@dealignai: Qwen3.6-27b 和 35b 的 MXFP4 与 MXFP8 CRACK 版本现已推出,支持 MTP。尽享无审查的极速体验!35b mxfp4: https://huggingface…

X AI KOLs Timeline 模型

摘要

DealignAI 发布了 Qwen3.6-27B 和 35B 模型的 CRACK-abliterated 以及 MXFP4/MXFP8 量化版本,保留了 MTP,可在 Apple Silicon 上实现更快的推测解码。

Qwen3.6-27b 和 35b 的 MXFP4 MXFP8 CRACK 现已推出,支持 MTP。尽享无审查的极速体验!35b mxfp4: https://huggingface.co/dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP… 35b mxfp8: https://huggingface.co/dealignai/Qwen3.6-35B-A3B-MXFP8-CRACK-MTP… 27b mxfp4: https://huggingface.co/dealignai/Qwen3.6-27B-MXFP4-CRACK-MTP… 27b mxfp8: https://huggingface.co/dealignai/Qwen3.6-27B-MXFP8-CRACK-MTP…
查看原文
查看缓存全文

缓存时间: 2026/05/25 02:40

Qwen3.6-27b 和 35b 的 MXFP4 与 MXFP8 CRACK 版本现已发布,支持 MTP。尽享无审查的极速体验!
35b mxfp4: https://huggingface.co/dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP
35b mxfp8: https://huggingface.co/dealignai/Qwen3.6-35B-A3B-MXFP8-CRACK-MTP
27b mxfp4: https://huggingface.co/dealignai/Qwen3.6-27B-MXFP4-CRACK-MTP
27b mxfp8: https://huggingface.co/dealignai/Qwen3.6-27B-MXFP8-CRACK-MTP


dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP · Hugging Face

来源:https://huggingface.co/dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP

Qwen 3.6 35B-A3B — MXFP4 CRACK + d3 MTP

CRACK 消融处理 · MXFP4(4 位微缩放) · d3 MTP 自推测(1.51 倍加速) · 视觉 + 视频 · 推理开关 · 18 GB

Ko-fi (https://ko-fi.com/dealignai)


这是什么?

这是 Qwen 3.6 35B-A3B (https://huggingface.co/Qwen/Qwen3.6-35B-A3B) —— 一个视觉语言模型(混合专家模型,256 个路由专家,10 个激活专家,混合 SSM + 全注意力,40 层,原生图像 + 视频理解),已进行以下处理:

  1. CRACK 消融处理——在权重层面移除了拒绝行为,因此它能够在各类任务中遵从指令而不拒绝,同时保持其知识、推理能力和视觉能力完整。
  2. MXFP4(4 位微缩放)量化,面向 Apple Silicon 上的 MLX —— 18 GB。
  3. 保留 MTP——原生多 token 预测头部被保留并同样进行了消融处理,因此d3 自推测解码可在支持 MTP 的运行时(vMLX)上工作(约 1.51 倍加速)。

视觉和视频处理功能完全保留。

结果

通过 vMLX 推理引擎评估。HarmBench 使用严格分类器评分(拒绝循环、空/模板转储及思考痕迹泄露)。MMLU 为标准 57 科目选择题基准。

指标结果
HarmBench-320(遵从率 / ASR)99.4%(318/320)
MMLU(57 科目)74.6%
d3 MTP 加速比1.51×(对比自回归)
消融处理保留了模型的知识和推理能力 —— 在直接模式和推理模式下均保持连贯。

功能特性

  • 视觉 + 视频——图像-文本到文本,原生帧/视频理解功能保留。
  • d3 MTP 推测解码——原生 MTP 头部保留并消融处理 → 在支持 MTP 的运行时上生成速度提升约 1.51 倍。
  • 推理开关——enable_thinking=True(默认,完整思维链)或 enable_thinking=False(直接回答)。

使用方法

使用 vMLX (https://vmlx.net/)(推荐 —— 支持 VL + 视频 + 原生 MTP)或支持 Qwen 3.6 的 MLX 运行时运行。

推荐采样参数(来自模型的 generation_config):temperature 1.0, top_p 0.95, top_k 20

# vMLX 兼容 OpenAI 的端点
# POST /v1/chat/completions
{
  "model": "dealignai/Qwen3.6-35B-A3B-MXFP4-CRACK-MTP",
  "messages": [{"role": "user", "content": "..."}],
  "temperature": 1.0, "top_p": 0.95, "top_k": 20,
  "enable_thinking": true
}

关于 CRACK

CRACK(受控拒绝消融与校准剔除)通过将拒绝方向从残差流写入矩阵中投影出去,在权重层面移除安全拒绝行为,其强度经过校准以保持推理质量和连贯性。

支持 dealignai

所有模型均基于原创研究构建并免费发布。

在 Ko-fi 上支持我们 (https://ko-fi.com/dealignai) —— 会员可获得早期访问权限和额外福利。

Ko-fi (https://ko-fi.com/dealignai) · X @dealignai (https://x.com/dealignai) · dealign.ai (https://dealign.ai/)

查看我们的研究:前沿模型的安全泛化 (https://dealign.ai/quantsteer.html)

dealign.ai


免责声明

此模型的安全拒绝行为已为研究目的而移除。它将在所有类别中遵从指令而不会拒绝。您对如何使用它以及遵守所有适用法律负全部责任。为人工智能安全研究和授权安全测试而发布。

相似文章

Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit

Reddit r/LocalLLaMA

用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本,称赞其速度快、智能化程度高且没有安全免责声明。

Qwen3.6-35B-A3B-Uncensored-Genesis-APEX-MTP

Reddit r/LocalLLaMA

Qwen模型(Qwen3.6-35B-A3B)的精调无审查版本,支持MTP和APEX量化,经测试在200k上下文下稳定运行,推荐在LM Studio中使用。