在领域特定任务上,使用约3美元的API调用和零人工标注,将Qwen2.5-7B微调至Claude Haiku的96%性能

Reddit r/LocalLLaMA 论文

摘要

提出DV-DPO方法,仅用约3美元的API调用和零人工标注,即可在领域特定任务上微调Qwen2.5-7B,通过对抗性交叉检验达到Claude Haiku综合性能的96%。

构建了一个决策推理引擎(Orlog),并希望为其微调一个本地模型,而不是永远按次付费。**方法(DV-DPO):** * 对每个问题运行三人评审团,生成综合意见 * 交叉检验:落选方质疑综合意见 * 如果综合意见被修改 → 生成DPO对(优选=修改后,拒绝=修改前) * 如果综合意见保持不变 → 不生成对(好的推理没有可学之处) 只有对抗压力下真正的修改才成为训练信号。不是格式偏好,也不是采样方差。 **结果:** * 总共1,040对(按Haiku费率约3美元) * 与Claude Haiku直接对比:格式100%,提交100%,上下文89%,综合96% * 延迟:11秒 vs 3秒(T4 GPU,4位量化) * 针对96个问题的对抗失败率:2% **正在运行的自循环:** 故障检测器 → 自动红队 → DPO对 → 重新训练 → 重新部署 → 评估。 v5对正在积累。GGUF已准备好用于Ollama。如有兴趣,很乐意分享该流程。
查看原文

相似文章

Qwen 3.6 27B 在 DeepSWE 上的表现

Reddit r/LocalLLaMA

Qwen 3.6 27B 在 DeepSWE 基准测试中获得了 2% 的分数,排名 18/20,高于 Haiku 4.5 和 Minimax M2.7,突显了本地模型与前沿模型之间的差距。