一直在通过3批评判器流程运行Qwen3.6-27B。这个流程的重要性远超我的想象。

Reddit r/LocalLLaMA 模型

摘要

报告了通过3批评判器编码流程运行Qwen3.6-27B(8位)的情况,发现该流程能有效捕捉错误,使最终输出质量与前沿模型相当,并提出了一种工作流:前沿模型负责规划,Qwen负责执行。

我已经通过我的编码流程运行Qwen3.6-27B(8位)几天了,同时还运行了GLM5.2。该流程使用3个评判器——代码审查、测试审查、Playwright端到端测试——每个评判器在接受输出前都会使用新的上下文。Qwen3.6作为27B稠密模型是名副其实的。基准测试没有骗人。它能处理仓库级别的推理,生成不错的代码。但确实,它比前沿模型犯更多错误。意料之中。我没想到的是,我为前沿模型构建的3批评判器流水线在这里竟然非常适用。评判器捕捉了额外的错误。流程处理了重试开销,没有打乱节奏。经过评判器处理后的输出质量足够好,以至于我看不出与前沿模型运行在最终质量上的区别。只是过程更嘈杂。不过有一点,这次运行的执行计划是由GLM5.2编写的,而不是Qwen3.6。我的猜测是,最佳分工是前沿模型负责规划,Qwen3.6负责执行。在推理至关重要的地方使用强模型,在高容量实现中使用廉价模型,由流程捕捉错误。
查看原文

相似文章

构建 Qwen 3.6 - Codex 桥梁:进一步进展与现实现状检查

Reddit r/LocalLLaMA

作者更新了自定义的适配器和 UI 桥接工具,以便通过 llama.cpp 在本地 RTX 5090 上运行 Qwen 3.6 模型,从而在 GitHub Copilot Codex 中使用。本文详细介绍了已实现的功能、修复的 Bug 以及在实现与原生 OpenAI 模型等效性方面仍存在的局限性。

引用 Georgi Gerganov

Simon Willison's Blog

Georgi Gerganov 证实 Qwen3.6-27B 是一个非常强大的本地编程模型,他日常在 M2 Ultra 或 RTX 5090 上使用一个轻量级框架来运行它。