标签
使用Artificial Analysis Intelligence Index和其他基准测试分析开源权重与闭源大语言模型之间的差距,发现在某些指标上差距正在缩小,但在其他指标上保持稳定。
智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。
根据 Artificial Analysis 的 Intelligence Index,GLM-5.2 (max) 目前整体上排名第三,包含对智能性、开放性、成本和令牌使用量的详细分析。
Claude Fable 5 在 Artificial Analysis 智能指数上取得了 65 分。
Qwen3.7 Max在Artificial Analysis基准测试中排名第五,与GPT-5.4持平,并超越了刚发布的Gemini 3.5 Flash,而Qwen3.6 27B则明显落后。
Cerebras 宣布,在企业试用中,其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token,并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。
Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。
月之暗面 Moonshot AI 的 Kimi K2.6 首次亮相即登上 Artificial Analysis 智能指数第 4 位,为最新版模型打出亮眼基准成绩。