在领域特定任务上,使用约3美元的API调用和零人工标注,将Qwen2.5-7B微调至Claude Haiku的96%性能
摘要
提出DV-DPO方法,仅用约3美元的API调用和零人工标注,即可在领域特定任务上微调Qwen2.5-7B,通过对抗性交叉检验达到Claude Haiku综合性能的96%。
构建了一个决策推理引擎(Orlog),并希望为其微调一个本地模型,而不是永远按次付费。**方法(DV-DPO):**
* 对每个问题运行三人评审团,生成综合意见
* 交叉检验:落选方质疑综合意见
* 如果综合意见被修改 → 生成DPO对(优选=修改后,拒绝=修改前)
* 如果综合意见保持不变 → 不生成对(好的推理没有可学之处)
只有对抗压力下真正的修改才成为训练信号。不是格式偏好,也不是采样方差。
**结果:**
* 总共1,040对(按Haiku费率约3美元)
* 与Claude Haiku直接对比:格式100%,提交100%,上下文89%,综合96%
* 延迟:11秒 vs 3秒(T4 GPU,4位量化)
* 针对96个问题的对抗失败率:2%
**正在运行的自循环:**
故障检测器 → 自动红队 → DPO对 → 重新训练 → 重新部署 → 评估。
v5对正在积累。GGUF已准备好用于Ollama。如有兴趣,很乐意分享该流程。
相似文章
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。
LinguIUTics 在 PsyDefDetect 中的方法:面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调
本文提出了一种迭代不平衡感知微调方法,使用 Qwen3-8B 和 QLoRA 进行心理防御机制分类,在 PsyDefDetect 2026 共享任务中取得了 0.3917 的宏 F1 分数,在 21 支队伍中排名第 4。
Qwen 3.6 27B 在 DeepSWE 上的表现
Qwen 3.6 27B 在 DeepSWE 基准测试中获得了 2% 的分数,排名 18/20,高于 Haiku 4.5 和 Minimax M2.7,突显了本地模型与前沿模型之间的差距。
@cjzafir:Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型,在全精度和 Q8 量化版本上达到了 98% 的准确率…
一位开发者报告称,使用 Unsloth 微调 Qwen 3.5 4B 和 8B 模型后取得了高准确率,这表明业界正转向针对细分任务使用专用的专家语言模型(ELMs)。
@Ex0byt:激活、切片、拼接、微调数日,外加15小时屏息凝神的NVFP4校准/传播轮次……
社区成员发布了Qwen3.6-35B-A3B-PRISM-NVFP4——一款经过多轮、数据集校准、零损耗的NVFP4量化版Qwen模型。