搭配合适代理后,Qwen3.6-35B 可与云端模型一较高下
摘要
将 Qwen3.6-35B 与 little-coder 代理框架结合,在 Polyglot 编程基准上达到 78.7%,跻身公开榜前十,直追云端模型。
这是对我上一篇帖子的简短跟进,当时我展示了仅更换 9B Qwen 模型的外围框架,就把基准成绩从 19.11% 提到 45.56%: https://www.reddit.com/r/LocalLLaMA/s/JMHuAGj1LV
在大家的反馈下,我尝试用 little-coder 搭配 Qwen3.6 35B。如今它以 78.7% 的成功率闯进公开 Polyglot 前十,真正能与市面上最强模型抗衡!
现在我越来越确信,与云端模型的性能差距部分出在“套具”不匹配:我们可能一直在用为另一类模型设计的框架测试本地编程模型。
接下来是 Terminal Bench,然后可能跑 GAIA 研究能力。欢迎继续提意见!
完整文章: https://open.substack.com/pub/itayinbarr/p/honey-i-shrunk-the-coding-agent
GitHub: https://github.com/itayinbarr/little-coder
完整基准结果: https://github.com/itayinbarr/little-coder/blob/main/docs/benchmark-qwen3.6-35b-a3b.md
相似文章
Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜!
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。
Qwen3.7:智能代理前沿(15分钟阅读)
阿里巴巴Qwen团队发布了Qwen3.7-Max,这是一款专有智能代理基础模型,在Terminal-Bench 2.0、SWE-Pro、GPQA Diamond等多个基准测试中取得最高分,并在多种代码环境中表现一致。
试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode,真不敢相信居然能用
用户报告称,在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf,200K 上下文速度约 50 tok/s,编码表现出乎意料地可用,标志着本地模型质量大幅跃升。
Qwen 3.6 27B:本地开发的理想之选
Qwen 3.6 27B 被赞誉为强大的本地 AI 模型,在通用智能方面超越预期,适用于代码生成等实际任务,并能通过 llama.cpp 轻松运行。
Qwen3.6-27B
阿里巴巴 Qwen 团队发布 270 亿参数新语言模型 Qwen3.6-27B,并公布基准测试结果。