相同的9B Qwen权重:在Aider中19.1%,而在适配小型本地模型的脚手架中为45.6%

Reddit r/LocalLLaMA 论文

摘要

过去一周,我测试了一个简单的问题:小型本地模型在编码智能体中通常表现不佳。但其中多少是模型本身的弱点,多少是脚手架不匹配所致?因此,我固定模型参数,仅更改脚手架。两种条件下使用相同的Qwen3.5-9B Q4权重。相同的Aider Polyglot基准测试。完整的225个练习。结果:\- 原始Aider:19.11% \- little-coder:两次完整运行的mean pass@2为45.56% little-coder并非新模型。它是一个我适配到t

过去一周,我测试了一个简单的问题:小型本地模型在编码智能体中通常表现不佳。但其中多少是模型本身的弱点,多少是脚手架不匹配所致?因此,我固定模型参数,仅更改脚手架。两种条件下使用相同的Qwen3.5-9B Q4权重。相同的Aider Polyglot基准测试。完整的225个练习。结果:\- 原始Aider:19.11% \- little-coder:两次完整运行的mean pass@2为45.56% little-coder并非新模型。它是一个我适配到约10B本地模型行为特征的脚手架:有限推理预算、拒绝覆盖已有文件的写入保护、显式工作空间发现,以及每次交互的小型技能注入而非一个巨大的静态前导。这不是一篇会议论文。一篇正式论文显然还需要:\- 更多重复实验 \- 组件消融实验 \- 更多模型系列 \- 也许第二个基准测试 但效果规模足够大,我认为值得现在分享(遗憾的是我没有时间做上述工作)。我的结论相当狭窄:在此规模下,编码智能体基准测试结果不仅仅是模型权重的特性,也是脚手架与模型匹配度的特性。我怀疑在编码智能体评估中,低于10B的本地模型可能被过早否定了。完整文章、代码和数据在此:https://itayinbarr.substack.com/p/honey-i-shrunk-the-coding-agent 非常期待复现尝试、失败案例或您认为这不会推广的理由。
查看原文

相似文章

Qwen 3.7 Max

Reddit r/LocalLLaMA

Qwen 3.7 是一款来自中国实验室的新AI模型,令人印象深刻,讨论焦点在于其权重是否可供下载。