GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型
摘要
智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。
暂无内容
查看缓存全文
缓存时间: 2026/06/17 11:40
# GLM-5.2 成为Artificial Analysis Intelligence Index上领先的新开源权重模型
来源:https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index
**智谱AI的GLM-5.2在Artificial Analysis Intelligence Index上以51分成为新的领先开源权重模型,并处于智能性与每任务成本的帕累托前沿。**
GLM-5.2与GLM-5.1规模相同(总计744B/激活参数40B),但在Intelligence Index v4.1上得分高出11点,领先于MiniMax-M3(44分)和DeepSeek V4 Pro(最大,44分)。在第一方API上,其定价与GLM-5.1持平,为每百万输入/输出/缓存命中token $1.4/$4.4/$0.26。
**关键结果:**
➤ **GLM-5.2是Intelligence Index v4.1上领先的开源权重模型。** 以51分领先MiniMax-M3(44分)、DeepSeek V4 Pro(最大,44分)和Kimi K2.6(43分)。
➤ **在大多数评测上均有提升,特别是科学推理:** GLM-5.2相比GLM-5.1在大多数评测上取得进步,主要体现在科学推理方面:CritPt(+16分,达21%)、HLE(+12分,达40%),同时AA-LCR(+9分,达71%)、tau3 banking(+15分,达27%)和SciCode(+7分,达50%)。TerminalBench v2.1也提升了16分达78%,GPQA Diamond提升3分达89%。
➤ **在GDPval-AA v2上领先开源权重模型,并与闭源模型竞争:** GLM-5.2在GDPval-AA v2上得分1524,领先于MiniMax-M3(1418分)和DeepSeek V4 Pro(最大,1328分)。这一出色成绩使GLM-5.2与包括GPT-5.5(xhigh推理)在内的闭源模型处于同一水平。GDPval-AA v2在原始GDPval-AA基础上进行了改进:将Elo基准线设为人类表现1000分,引入轮换的前沿模型评委面板,并将回合上限从100提高到250,以支持更长周期的智能体轨迹。
➤ **GLM-5.2每任务使用的输出token多于其他领先开源权重模型:** 该模型每项Intelligence Index任务使用43k输出token,高于GLM-5.1(26k),也高于MiniMax-M3(24k)、Kimi K2.6(35k)和DeepSeek V4 Pro(最大,37k)。
➤ **处于智能性与每任务成本帕累托前沿:** GLM-5.2位于智能性与每任务成本图表的帕累托前沿,在其智能水平下,每任务成本最低。GLM-5.2每任务成本约$0.46,相比之下GLM-5.1为$0.25,Kimi K2.6为$0.31,MiniMax-M3为$0.18,DeepSeek V4 Pro(最大)为$0.05。
**其他模型详情:**
➤ **许可证:** MIT
➤ **规模:** 总计744B参数,激活40B参数,与GLM-5.1相同。
➤ **上下文窗口:** 1M token,较GLM-5.1的200K有所提升。
➤ **定价:** 每百万输入/缓存命中/输出token $1.4/$0.26/$4.4。
➤ **可用性:** 除智谱AI第一方API外,GLM-5.2还可在DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten和Fireworks等第三方提供商处获取。
GLM-5.2在我们的真实世界智能体性能主要指标GDPval-AA v2上领先所有开源权重模型。它以1524分领先MiniMax-M3(1418分)和DeepSeek V4 Pro(最大,1328分),并与GPT-5.5(xhigh,1514分)水平相当。我们目视检查了GLM-5.2在一系列GDPval-AA任务上的输出。下面附上部分示例。
GLM-5.2在AA-Omniscience Index上得分为4,高于GLM-5.1的2分。提升源于更高的准确率(25.1%对24.2%)以及更低的幻觉率(28.1%对29.4%),尝试率持平于47%。
GLM-5.2每项Intelligence Index任务使用43k输出token,其中37k为推理token。这高于GLM-5.1(26k),也高于开源权重同类模型MiniMax-M3(24k)和Kimi K2.6(35k),使其在其智能水平上属于token效率较低的开源权重模型之一。GLM-5.2在智能性与输出token图表上并未处于最优象限。
Artificial Analysis Intelligence Index v4.1中单项评测的详细分解。
将GLM-5.2与其他领先模型进行比较,请访问:https://artificialanalysis.ai/models/glm-5-2
相似文章
GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。
根据 Artificial Analysis 的 Intelligence Index,GLM-5.2 (max) 目前整体上排名第三,包含对智能性、开放性、成本和令牌使用量的详细分析。
GLM-5.2 是本地人工智能的一次胜利
GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。
GLM-5.2 刚发布开放权重,在编程方面已经异常强大
GLM-5.2 已以 MIT 许可证发布开放权重,拥有 100 万上下文窗口和两种推理努力模式。早期基准测试显示它在编程任务中表现出色,值得在基准截图之外进行测试。
GLM-5.2 是首个在 Terminal-Bench 上突破 80% 的开源权重模型,超越了所有其他开源模型。
GLM-5.2 是首个在 Terminal-Bench 上超过 80% 的开源权重模型,超越了所有其他开源模型乃至 Gemini,使其以极低的成本成为前沿水准的模型。
GLM 5.2 是一款猛兽级模型
GLM 5.2 是一款强大的新AI模型发布,可能来自智谱AI,其性能被形容为猛兽。