相同的9B Qwen权重：在Aider中19.1%，而在适配小型本地模型的脚手架中为45.6%

Reddit r/LocalLLaMA 2026/04/19 14:27 论文

coding-agents local-models benchmarking scaffolding small-models llm-evaluation open-source

摘要

过去一周，我测试了一个简单的问题：小型本地模型在编码智能体中通常表现不佳。但其中多少是模型本身的弱点，多少是脚手架不匹配所致？因此，我固定模型参数，仅更改脚手架。两种条件下使用相同的Qwen3.5-9B Q4权重。相同的Aider Polyglot基准测试。完整的225个练习。结果：\- 原始Aider：19.11% \- little-coder：两次完整运行的mean pass@2为45.56% little-coder并非新模型。它是一个我适配到约10B本地模型行为特征的脚手架：有限推理预算、拒绝覆盖已有文件的写入保护、显式工作空间发现，以及每次交互的小型技能注入而非一个巨大的静态前导。这不是一篇会议论文。一篇正式论文显然还需要：\- 更多重复实验 \- 组件消融实验 \- 更多模型系列 \- 也许第二个基准测试但效果规模足够大，我认为值得现在分享（遗憾的是我没有时间做上述工作）。我的结论相当狭窄：在此规模下，编码智能体基准测试结果不仅仅是模型权重的特性，也是脚手架与模型匹配度的特性。我怀疑在编码智能体评估中，低于10B的本地模型可能被过早否定了。完整文章、代码和数据在此：https://itayinbarr.substack.com/p/honey-i-shrunk-the-coding-agent 非常期待复现尝试、失败案例或您认为这不会推广的理由。

查看原文

相同的9B Qwen权重：在Aider中19.1%，而在适配小型本地模型的脚手架中为45.6%

相似文章

搭配合适代理后，Qwen3.6-35B 可与云端模型一较高下

Qwen3.6 35B + 合适脚手架，本地跑真实 Go 任务 9/10 通过

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

Qwen 3.7 Max

提交意见反馈