搭配合适代理后,Qwen3.6-35B 可与云端模型一较高下

Reddit r/LocalLLaMA 模型

摘要

将 Qwen3.6-35B 与 little-coder 代理框架结合,在 Polyglot 编程基准上达到 78.7%,跻身公开榜前十,直追云端模型。

这是对我上一篇帖子的简短跟进,当时我展示了仅更换 9B Qwen 模型的外围框架,就把基准成绩从 19.11% 提到 45.56%: https://www.reddit.com/r/LocalLLaMA/s/JMHuAGj1LV 在大家的反馈下,我尝试用 little-coder 搭配 Qwen3.6 35B。如今它以 78.7% 的成功率闯进公开 Polyglot 前十,真正能与市面上最强模型抗衡! 现在我越来越确信,与云端模型的性能差距部分出在“套具”不匹配:我们可能一直在用为另一类模型设计的框架测试本地编程模型。 接下来是 Terminal Bench,然后可能跑 GAIA 研究能力。欢迎继续提意见! 完整文章: https://open.substack.com/pub/itayinbarr/p/honey-i-shrunk-the-coding-agent GitHub: https://github.com/itayinbarr/little-coder 完整基准结果: https://github.com/itayinbarr/little-coder/blob/main/docs/benchmark-qwen3.6-35b-a3b.md
查看原文

相似文章

Qwen3.7:智能代理前沿(15分钟阅读)

TLDR AI

阿里巴巴Qwen团队发布了Qwen3.7-Max,这是一款专有智能代理基础模型,在Terminal-Bench 2.0、SWE-Pro、GPQA Diamond等多个基准测试中取得最高分,并在多种代码环境中表现一致。

Qwen 3.6 27B:本地开发的理想之选

Hacker News Top

Qwen 3.6 27B 被赞誉为强大的本地 AI 模型,在通用智能方面超越预期,适用于代码生成等实际任务,并能通过 llama.cpp 轻松运行。

Qwen3.6-27B

Reddit r/LocalLLaMA

阿里巴巴 Qwen 团队发布 270 亿参数新语言模型 Qwen3.6-27B,并公布基准测试结果。