GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

Hacker News Top 2026/06/17 09:12 模型

open-weights glm-5-2 z-ai artificial-analysis ai-model llm benchmark

摘要

智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型，得分为51，超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/17 11:40

# GLM-5.2 成为Artificial Analysis Intelligence Index上领先的新开源权重模型来源：https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index **智谱AI的GLM-5.2在Artificial Analysis Intelligence Index上以51分成为新的领先开源权重模型，并处于智能性与每任务成本的帕累托前沿。** GLM-5.2与GLM-5.1规模相同（总计744B/激活参数40B），但在Intelligence Index v4.1上得分高出11点，领先于MiniMax-M3（44分）和DeepSeek V4 Pro（最大，44分）。在第一方API上，其定价与GLM-5.1持平，为每百万输入/输出/缓存命中token $1.4/$4.4/$0.26。 **关键结果：** ➤ **GLM-5.2是Intelligence Index v4.1上领先的开源权重模型。** 以51分领先MiniMax-M3（44分）、DeepSeek V4 Pro（最大，44分）和Kimi K2.6（43分）。 ➤ **在大多数评测上均有提升，特别是科学推理：** GLM-5.2相比GLM-5.1在大多数评测上取得进步，主要体现在科学推理方面：CritPt（+16分，达21%）、HLE（+12分，达40%），同时AA-LCR（+9分，达71%）、tau3 banking（+15分，达27%）和SciCode（+7分，达50%）。TerminalBench v2.1也提升了16分达78%，GPQA Diamond提升3分达89%。 ➤ **在GDPval-AA v2上领先开源权重模型，并与闭源模型竞争：** GLM-5.2在GDPval-AA v2上得分1524，领先于MiniMax-M3（1418分）和DeepSeek V4 Pro（最大，1328分）。这一出色成绩使GLM-5.2与包括GPT-5.5（xhigh推理）在内的闭源模型处于同一水平。GDPval-AA v2在原始GDPval-AA基础上进行了改进：将Elo基准线设为人类表现1000分，引入轮换的前沿模型评委面板，并将回合上限从100提高到250，以支持更长周期的智能体轨迹。 ➤ **GLM-5.2每任务使用的输出token多于其他领先开源权重模型：** 该模型每项Intelligence Index任务使用43k输出token，高于GLM-5.1（26k），也高于MiniMax-M3（24k）、Kimi K2.6（35k）和DeepSeek V4 Pro（最大，37k）。 ➤ **处于智能性与每任务成本帕累托前沿：** GLM-5.2位于智能性与每任务成本图表的帕累托前沿，在其智能水平下，每任务成本最低。GLM-5.2每任务成本约$0.46，相比之下GLM-5.1为$0.25，Kimi K2.6为$0.31，MiniMax-M3为$0.18，DeepSeek V4 Pro（最大）为$0.05。 **其他模型详情：** ➤ **许可证：** MIT ➤ **规模：** 总计744B参数，激活40B参数，与GLM-5.1相同。 ➤ **上下文窗口：** 1M token，较GLM-5.1的200K有所提升。 ➤ **定价：** 每百万输入/缓存命中/输出token $1.4/$0.26/$4.4。 ➤ **可用性：** 除智谱AI第一方API外，GLM-5.2还可在DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten和Fireworks等第三方提供商处获取。 GLM-5.2在我们的真实世界智能体性能主要指标GDPval-AA v2上领先所有开源权重模型。它以1524分领先MiniMax-M3（1418分）和DeepSeek V4 Pro（最大，1328分），并与GPT-5.5（xhigh，1514分）水平相当。我们目视检查了GLM-5.2在一系列GDPval-AA任务上的输出。下面附上部分示例。 GLM-5.2在AA-Omniscience Index上得分为4，高于GLM-5.1的2分。提升源于更高的准确率（25.1%对24.2%）以及更低的幻觉率（28.1%对29.4%），尝试率持平于47%。 GLM-5.2每项Intelligence Index任务使用43k输出token，其中37k为推理token。这高于GLM-5.1（26k），也高于开源权重同类模型MiniMax-M3（24k）和Kimi K2.6（35k），使其在其智能水平上属于token效率较低的开源权重模型之一。GLM-5.2在智能性与输出token图表上并未处于最优象限。 Artificial Analysis Intelligence Index v4.1中单项评测的详细分解。将GLM-5.2与其他领先模型进行比较，请访问：https://artificialanalysis.ai/models/glm-5-2

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

相似文章

GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。

GLM-5.2 是本地人工智能的一次胜利

GLM-5.2 刚发布开放权重，在编程方面已经异常强大

GLM-5.2 是首个在 Terminal-Bench 上突破 80% 的开源权重模型，超越了所有其他开源模型。

GLM 5.2 是一款猛兽级模型

提交意见反馈