@cjzafir：Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型，在全精度和 Q8 量化版本上达到了 98% 的准确率…

X AI KOLs Timeline 2026/05/10 05:07 新闻

qwen fine-tuning quantization open-source llm-optimization expert-language-models

摘要

一位开发者报告称，使用 Unsloth 微调 Qwen 3.5 4B 和 8B 模型后取得了高准确率，这表明业界正转向针对细分任务使用专用的专家语言模型（ELMs）。

Qwen 3.5 4B 和 8B 模型实在太强了。我今天微调了一个 4B 模型，在全精度和 Q8 量化版本上均达到了 98% 的准确率。即便是 Q4 量化版本，质量损失也仅为 1%。我的技术栈如下： > Codex 5.5 作为规划/协调器 > Deepseek v4 pro 生成示例 > Collab pro 提供 A100 GPU > Unsloth 提供微调方案随后 Codex 运行了 8-9 个小时以完成各个阶段： - 基础架构清晰化 - 数据集创建 - 质量门控 - 微调 - 运行评估 - 量化 - 测试/报告有时让人觉得有趣的是，如今微调 5B 到 10B 参数规模的模型变得如此容易，并且在特定细分环境中能够击败二线最先进（SoTA）模型。我拥有能够轻松超越 Gemini 3 pro、Sonnet 4.6、GPT-4.5 mini 的模型。现在我们正转向使用专家语言模型（ELMs），而不是将所有任务都扔给大型语言模型（LLMs）。毕竟你不会到处都开保时捷！为企业打造“凯美瑞”，才能赚到钱。

查看原文

@cjzafir：Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型，在全精度和 Q8 量化版本上达到了 98% 的准确率…

相似文章

对本地LLM如Qwen 3:0.6B进行微调以对问题分类，效果良好

@xdotli: 我的朋友 @xeophon 认为编码问题已经解决了，这里有一个验证：一个3B模型接受了以算法效率为重点的训练……

@f14bertolotti：一款3B模型的出色表现。这些成果主要通过对Qwen2.5进行训练后优化而实现……

Qwen 3.6 27B 在 DeepSWE 上的表现

Qwen3.6-27B

提交意见反馈