@songjunkr:SuperQwen3.6-35B-DFlash-MLX 完成。基准:在 100 条商业评测的真实样本上对比原版与微调版——GPQA Diamond、MMLU-Pro、IFEval、HumanEval+、MBPP+
摘要
一款为 MLX 优化的 350 亿参数 Qwen 微调模型,在 GPQA Diamond、MMLU-Pro、IFEval、HumanEval+、MBPP+ 上全面提分,且无内容审查。
SuperQwen3.6-35B-DFlash-MLX 已完成。基准:在 100 条商业评测的真实样本上对比原版与微调版——GPQA Diamond、MMLU-Pro、IFEval、HumanEval+、MBPP+,当然无审查。MLX 版本将在数小时内发布。
查看缓存全文
缓存时间: 2026/04/23 10:00
SuperQwen3.6-35B-DFlash-MLX 已就绪。
基准测试:在 100 道真实商用评测题上对比原版与微调版
- GPQA Diamond
- MMLU-Pro
- IFEval
- HumanEval+
- MBPP+
当然,无审查。
MLX 版本将在数小时内发布。
相似文章
Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit
用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本,称赞其速度快、智能化程度高且没有安全免责声明。
Qwen 3.6 35B A3B 的热度绝非虚名!
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。
@zhijianliu_: DFlash for Qwen3.6-35B-A3B 刚刚发布,我们还没完成训练,社区就已经在跑首日预览版了。N…
Z-lab 发布适用于 Qwen3.6-35B-A3B 的 DFlash 模型微调/压缩技术,训练已全部完成,权重现已在 GitHub 和 HuggingFace 上提供。
@Italianclownz:在 @UnslothAI 和 @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE 模型上测试了 MTP、TriAttention 和 TurboQuant,发布在 @huggingface @no_stp…
一名用户在消费级硬件上使用 Unsloth 对 Qwen 3.6 35B 进行了基准测试,对比了 MTP、TriAttention 和 TurboQuant 优化效果,发现 TurboQuant 最为有效。
@witcheer:这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优(!!!)。 - 质量(MMLU/ARC/HellaS…)
一个Qwen3.6-27B的社区微调在SWE-bench上提升了实际Bug修复能力,同时保持了质量,这与导致退化的合成蒸馏不同。