在领域特定任务上，使用约3美元的API调用和零人工标注，将Qwen2.5-7B微调至Claude Haiku的96%性能

Reddit r/LocalLLaMA 2026/06/10 00:01 论文

fine-tuning qwen dpo domain-specific decision-reasoning open-source local-model

摘要

提出DV-DPO方法，仅用约3美元的API调用和零人工标注，即可在领域特定任务上微调Qwen2.5-7B，通过对抗性交叉检验达到Claude Haiku综合性能的96%。

构建了一个决策推理引擎（Orlog），并希望为其微调一个本地模型，而不是永远按次付费。**方法（DV-DPO）：** * 对每个问题运行三人评审团，生成综合意见 * 交叉检验：落选方质疑综合意见 * 如果综合意见被修改 → 生成DPO对（优选=修改后，拒绝=修改前） * 如果综合意见保持不变 → 不生成对（好的推理没有可学之处）只有对抗压力下真正的修改才成为训练信号。不是格式偏好，也不是采样方差。 **结果：** * 总共1,040对（按Haiku费率约3美元） * 与Claude Haiku直接对比：格式100%，提交100%，上下文89%，综合96% * 延迟：11秒 vs 3秒（T4 GPU，4位量化） * 针对96个问题的对抗失败率：2% **正在运行的自循环：** 故障检测器 → 自动红队 → DPO对 → 重新训练 → 重新部署 → 评估。 v5对正在积累。GGUF已准备好用于Ollama。如有兴趣，很乐意分享该流程。

查看原文

在领域特定任务上，使用约3美元的API调用和零人工标注，将Qwen2.5-7B微调至Claude Haiku的96%性能

相似文章

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

LinguIUTics 在 PsyDefDetect 中的方法：面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调

Qwen 3.6 27B 在 DeepSWE 上的表现

@cjzafir：Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型，在全精度和 Q8 量化版本上达到了 98% 的准确率…

@Ex0byt：激活、切片、拼接、微调数日，外加15小时屏息凝神的NVFP4校准/传播轮次……

提交意见反馈