@cjzafir:Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型,在全精度和 Q8 量化版本上达到了 98% 的准确率…
摘要
一位开发者报告称,使用 Unsloth 微调 Qwen 3.5 4B 和 8B 模型后取得了高准确率,这表明业界正转向针对细分任务使用专用的专家语言模型(ELMs)。
Qwen 3.5 4B 和 8B 模型实在太强了。我今天微调了一个 4B 模型,在全精度和 Q8 量化版本上均达到了 98% 的准确率。即便是 Q4 量化版本,质量损失也仅为 1%。我的技术栈如下:
> Codex 5.5 作为规划/协调器
> Deepseek v4 pro 生成示例
> Collab pro 提供 A100 GPU
> Unsloth 提供微调方案
随后 Codex 运行了 8-9 个小时以完成各个阶段:
- 基础架构清晰化
- 数据集创建
- 质量门控
- 微调
- 运行评估
- 量化
- 测试/报告
有时让人觉得有趣的是,如今微调 5B 到 10B 参数规模的模型变得如此容易,并且在特定细分环境中能够击败二线最先进(SoTA)模型。我拥有能够轻松超越 Gemini 3 pro、Sonnet 4.6、GPT-4.5 mini 的模型。现在我们正转向使用专家语言模型(ELMs),而不是将所有任务都扔给大型语言模型(LLMs)。毕竟你不会到处都开保时捷!为企业打造“凯美瑞”,才能赚到钱。
相似文章
对本地LLM如Qwen 3:0.6B进行微调以对问题分类,效果良好
一位开发者使用Unsloth框架对小型Qwen 3 0.6B模型进行微调,用于对家庭问题进行分类,仅用850个训练样本便取得了良好效果。
@xdotli: 我的朋友 @xeophon 认为编码问题已经解决了,这里有一个验证:一个3B模型接受了以算法效率为重点的训练……
Nanbeige 4.1,一个3B模型,在编码任务中专注于算法效率,超越了Qwen3-30b-A3b和Qwen 3.5 4b,实现了600多次工具调用的长时任务。
@f14bertolotti:一款3B模型的出色表现。这些成果主要通过对Qwen2.5进行训练后优化而实现……
本技术报告介绍了VibeThinker-3B,一个3B参数的模型,通过对Qwen2.5-Coder进行训练后优化(包括基于课程的有监督微调、多域强化学习和离线自蒸馏),实现了前沿水平的可验证推理性能,达到或超越了DeepSeek V3.2等更大的模型。
Qwen 3.6 27B 在 DeepSWE 上的表现
Qwen 3.6 27B 在 DeepSWE 基准测试中获得了 2% 的分数,排名 18/20,高于 Haiku 4.5 和 Minimax M2.7,突显了本地模型与前沿模型之间的差距。
Qwen3.6-27B
阿里巴巴 Qwen 团队发布 270 亿参数新语言模型 Qwen3.6-27B,并公布基准测试结果。