标签
本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。
Kimi K2 以 460 万美元的训练成本,在编程基准测试中击败了 GPT-5 和 Claude Opus 4.7,其创始人还提供了详细的技术解析。
将 Qwen3.6-35B 与 little-coder 代理框架结合,在 Polyglot 编程基准上达到 78.7%,跻身公开榜前十,直追云端模型。