根据Arena排行榜,开放权重模型GLM和Mimo优于Gemini 3.5 Flash
摘要
根据Arena排行榜,开放权重模型GLM和Mimo在编程基准测试中优于Gemini 3.5 Flash。
尽管我们正在经历Gemini 3.5 Flash的热潮,但请记住,根据Arena,GLM和Mimo更胜一筹。[https://arena.ai/leaderboard/text/coding-no-style-control](https://arena.ai/leaderboard/text/coding-no-style-control) #7 GLM #9 Mimo #12 Gemini 3.5 Flash
相似文章
Gemini 3.5 Flash 在编码方面并不出色
文章讨论了来自 Cursor 的评估结果,表明 Gemini 3.5 Flash 在编码任务上的表现低于预期。
Gemini 3.5 Flash 凭速度看很不错(8分钟阅读)
谷歌发布了 Gemini 3.5 Flash,这是一款混合速度模型,在速度和成本上与 Opus 4.7 和 GPT-5.5 相抗衡,同时在智能体和编程基准测试中表现良好。
Gemini 3.5 Flash 基准测试
讨论了Gemini 3.5 Flash模型的基准测试结果,可能展示了它在各种AI任务上的表现。
GLM-5.2 是首个在 Terminal-Bench 上突破 80% 的开源权重模型,超越了所有其他开源模型。
GLM-5.2 是首个在 Terminal-Bench 上超过 80% 的开源权重模型,超越了所有其他开源模型乃至 Gemini,使其以极低的成本成为前沿水准的模型。
GLM-5.2 刚发布开放权重,在编程方面已经异常强大
GLM-5.2 已以 MIT 许可证发布开放权重,拥有 100 万上下文窗口和两种推理努力模式。早期基准测试显示它在编程任务中表现出色,值得在基准截图之外进行测试。