Qwen3.7 Max在Artificial Analysis评测中得分,27B/35B等待室
摘要
Qwen3.7 Max在Artificial Analysis基准测试中排名第五,与GPT-5.4持平,并超越了刚发布的Gemini 3.5 Flash,而Qwen3.6 27B则明显落后。
https://preview.redd.it/42ak5qmus82h1.png?width=1133&format=png&auto=webp&s=744ea3dfc06c83d0c4d8aa128c39b3238b17d7be Qwen 3.7 Max位列第五,与GPT 5.4 (xhigh)基本持平,略高于刚发布的Gemini 3.5 Flash。在另一端,我们看到DSV4 Flash和Qwen3.6 27B,后者比其最大版本正好落后6分。希望Qwen3.7也能与其最大版大哥处于同一水平。
相似文章
Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜!
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。
Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。
Qwen3.7:智能代理前沿(15分钟阅读)
阿里巴巴Qwen团队发布了Qwen3.7-Max,这是一款专有智能代理基础模型,在Terminal-Bench 2.0、SWE-Pro、GPQA Diamond等多个基准测试中取得最高分,并在多种代码环境中表现一致。
Qwen 3.7 Max 在 SWE-Bench Pro 上取得了 60.6% 的得分
Qwen 3.7 Max 在 SWE-Bench Pro 上取得了 60.6% 的得分,展现了在软件工程任务上的竞争力。
@rohanpaul_ai: Qwen 3.7 Max 在编码和智能代理能力方面非常接近前沿模型。而且它现在已经在AI/ML API上可用。
Qwen 3.7 Max,Qwen 推出的新AI模型,现已通过AI/ML API提供,展现出接近GPT-5.4和Gemini 3.5 Flash等前沿模型的编码和智能代理能力。提供免费促销代码供用户试用。