一直在通过3批评判器流程运行Qwen3.6-27B。这个流程的重要性远超我的想象。

Reddit r/LocalLLaMA 2026/06/30 00:25 模型

qwen coding harness critics open-source reasoning

摘要

报告了通过3批评判器编码流程运行Qwen3.6-27B（8位）的情况，发现该流程能有效捕捉错误，使最终输出质量与前沿模型相当，并提出了一种工作流：前沿模型负责规划，Qwen负责执行。

我已经通过我的编码流程运行Qwen3.6-27B（8位）几天了，同时还运行了GLM5.2。该流程使用3个评判器——代码审查、测试审查、Playwright端到端测试——每个评判器在接受输出前都会使用新的上下文。Qwen3.6作为27B稠密模型是名副其实的。基准测试没有骗人。它能处理仓库级别的推理，生成不错的代码。但确实，它比前沿模型犯更多错误。意料之中。我没想到的是，我为前沿模型构建的3批评判器流水线在这里竟然非常适用。评判器捕捉了额外的错误。流程处理了重试开销，没有打乱节奏。经过评判器处理后的输出质量足够好，以至于我看不出与前沿模型运行在最终质量上的区别。只是过程更嘈杂。不过有一点，这次运行的执行计划是由GLM5.2编写的，而不是Qwen3.6。我的猜测是，最佳分工是前沿模型负责规划，Qwen3.6负责执行。在推理至关重要的地方使用强模型，在高容量实现中使用廉价模型，由流程捕捉错误。

查看原文

一直在通过3批评判器流程运行Qwen3.6-27B。这个流程的重要性远超我的想象。

相似文章

构建 Qwen 3.6 - Codex 桥梁：进一步进展与现实现状检查

我无法让Qwen3.6 27B超越Qwen-Coder-Next，不确定原因

在github-copilot、pi、claude-code和opencode中使用Qwen3.6 27B完成相同任务

引用 Georgi Gerganov

本地运行 Qwen3.6-35B-A3B 作为编码 Agent：我的完整部署与可用配置

提交意见反馈