相同的9B Qwen权重:在Aider中19.1%,而在适配小型本地模型的脚手架中为45.6%
摘要
过去一周,我测试了一个简单的问题:小型本地模型在编码智能体中通常表现不佳。但其中多少是模型本身的弱点,多少是脚手架不匹配所致?因此,我固定模型参数,仅更改脚手架。两种条件下使用相同的Qwen3.5-9B Q4权重。相同的Aider Polyglot基准测试。完整的225个练习。结果:\- 原始Aider:19.11% \- little-coder:两次完整运行的mean pass@2为45.56% little-coder并非新模型。它是一个我适配到t
过去一周,我测试了一个简单的问题:小型本地模型在编码智能体中通常表现不佳。但其中多少是模型本身的弱点,多少是脚手架不匹配所致?因此,我固定模型参数,仅更改脚手架。两种条件下使用相同的Qwen3.5-9B Q4权重。相同的Aider Polyglot基准测试。完整的225个练习。结果:\- 原始Aider:19.11% \- little-coder:两次完整运行的mean pass@2为45.56% little-coder并非新模型。它是一个我适配到约10B本地模型行为特征的脚手架:有限推理预算、拒绝覆盖已有文件的写入保护、显式工作空间发现,以及每次交互的小型技能注入而非一个巨大的静态前导。这不是一篇会议论文。一篇正式论文显然还需要:\- 更多重复实验 \- 组件消融实验 \- 更多模型系列 \- 也许第二个基准测试 但效果规模足够大,我认为值得现在分享(遗憾的是我没有时间做上述工作)。我的结论相当狭窄:在此规模下,编码智能体基准测试结果不仅仅是模型权重的特性,也是脚手架与模型匹配度的特性。我怀疑在编码智能体评估中,低于10B的本地模型可能被过早否定了。完整文章、代码和数据在此:https://itayinbarr.substack.com/p/honey-i-shrunk-the-coding-agent 非常期待复现尝试、失败案例或您认为这不会推广的理由。
相似文章
搭配合适代理后,Qwen3.6-35B 可与云端模型一较高下
将 Qwen3.6-35B 与 little-coder 代理框架结合,在 Polyglot 编程基准上达到 78.7%,跻身公开榜前十,直追云端模型。
Qwen3.6 35B + 合适脚手架,本地跑真实 Go 任务 9/10 通过
开发者用 Qwen3.6 35B 为核心,配合 little-coder 脚手架搭建路由本地环境,在 10 个真实 Go 任务中拿到 9/10 通过率,证明本地模型搭配合适工具链也能逼近前沿代码模型。
Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。
Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜!
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。
Qwen 3.7 Max
Qwen 3.7 是一款来自中国实验室的新AI模型,令人印象深刻,讨论焦点在于其权重是否可供下载。