GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。
摘要
根据 Artificial Analysis 的 Intelligence Index,GLM-5.2 (max) 目前整体上排名第三,包含对智能性、开放性、成本和令牌使用量的详细分析。
暂无内容
查看缓存全文
缓存时间: 2026/06/17 08:55
# GLM-5.2 (max) - 智能、性能与价格分析
来源:https://artificialanalysis.ai/models/glm-5-2
## 智能(已更新)
### 人工分析智能指数
人工分析智能指数 v4.1 包含 9 项评估:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR
推理模型以灯泡图标标示
人工分析智能指数 v4.1 包含:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking),其中包含每项评估的分解说明以及我们的运行方式。
### 按开放权重/专有模型划分的人工分析智能指数
人工分析智能指数 v4.1 包含 9 项评估:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR
推理模型以灯泡图标标示
人工分析智能指数 v4.1 包含:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking),其中包含每项评估的分解说明以及我们的运行方式。
指示模型权重是否可用。模型若标注为“商业使用受限”,则表示权重可用但商业使用受限(通常需要获取付费许可证)。
### 智能评估
由人工分析独立测量的智能评估 · 数值越高越好
智能体真实工作任务,(Elo-500)/2000
智能体编码与终端使用
推理模型以灯泡图标标示。
虽然模型智能通常可跨用例适用,但特定评估可能对某些用例更具相关性。
人工分析智能指数 v4.1 包含:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking),其中包含每项评估的分解说明以及我们的运行方式。
## 开放性
### 人工分析开放性指数:得分
开放性指数在 0 到 100 的标准化尺度上评估模型开放程度(数值越高越开放)
推理模型以灯泡图标标示
## 智能指数对比
### 智能 vs. 每智能指数任务成本
人工分析智能指数 · 每项人工分析智能指数任务的加权平均成本(美元)
推理模型以灯泡图标标示。
每项智能指数任务的加权平均成本。每项评估的成本根据输入、缓存命中、缓存写入、推理和回答 token 价格计算,除以任务数量,并按其在智能指数中的权重加权。
人工分析智能指数 v4.1 包含:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking),其中包含每项评估的分解说明以及我们的运行方式。
## Token 使用(已更新)
### 每智能指数任务的输出 Token 数
在人工分析智能指数中运行一项任务所使用的输出 Token 数的加权平均值
推理模型以灯泡图标标示
每项智能指数任务所需的 Token 数量。计算方式为:每个评估的输出 Token 数乘以智能指数中各基准的相对权重,然后除以任务数量(排除重复项)。
## 价格与成本(已更新)
### 每智能指数任务成本
每项人工分析智能指数任务的加权平均成本(美元),按 Token 类型细分。越低越好
推理模型以灯泡图标标示
每项智能指数任务的加权平均成本。每项评估的成本根据输入、缓存命中、缓存写入、推理和回答 token 价格计算,除以任务数量,并按其在智能指数中的权重加权。
### 运行人工分析智能指数的成本
运行人工分析智能指数中所有评估的成本(美元)
推理模型以灯泡图标标示
运行人工分析智能指数中评估的成本,使用模型的输入、缓存命中、缓存写入、推理和回答 token 价格以及跨评估使用的 Token 数量(排除重复项)计算得出。
### 定价:缓存命中、输入与输出
价格(每百万 Token 的美元数)
推理模型以灯泡图标标示
缓存提示(先前处理过)的每 Token 价格,通常相比常规输入价格有显著折扣,以每百万 Token 美元表示。此处显示的是缓存命中价格;缓存写入和缓存存储单独计费,且因提供商而异——详情请参阅“按提供商划分的缓存定价”。
请求/消息中发送给 API 的每 Token 价格,以每百万 Token 美元表示。
此处显示的混合缓存价格仅使用缓存命中价格。其他缓存成本因提供商而异:
- Anthropic:单独收取缓存写入费用,5 分钟和 1 小时 TTL 费率不同(1 小时 TTL 更贵)。
- Google (Vertex/Gemini):除缓存命中定价外,还按小时收取缓存存储费用。部分提供商还对超过 20 万 Token 的提示采用分层定价。
- OpenAI、DeepSeek 等:通常仅收取缓存命中费用,无写入或存储费用。
完整分解请参见提示缓存 (https://artificialanalysis.ai/models/caching)。
模型生成的每 Token 价格(从 API 接收),以每百万 Token 美元表示。
数据表示模型第一方 API(例如 OpenAI 的 o1)的性能,或在无第一方 API 时(例如 Meta 的 Llama 模型)各提供商的中间值。
## 上下文窗口
### 上下文窗口
上下文窗口:Token 限制 · 越高越好
推理模型以灯泡图标标示
较大的上下文窗口适用于通常涉及大量数据推理和信息检索的 RAG(检索增强生成)LLM 工作流。
输入与输出 Token 的最大组合数量。输出 Token 通常有显著较低的限制(因模型而异)。
## 速度(已更新)
通过输出速度(每秒 Token 数)衡量
### 输出速度
每秒输出 Token 数 · 越高越好
推理模型以灯泡图标标示
模型生成 Token 时(即对于支持流式传输的模型,从接收到第一个 chunk 后开始)每秒接收的 Token 数。
数据表示模型第一方 API(例如 OpenAI 的 o1)的性能,或在无第一方 API 时(例如 Meta 的 Llama 模型)各提供商的中间值。
### 每智能指数任务耗时
每项任务的加权平均挂钟时间(分钟);排除 TTFT 和执行时间 · 越低越好
推理模型以灯泡图标标示
每项人工分析智能指数任务的加权平均耗时(秒)。计算方式为:任务输出 Token 数除以输出速度,按智能指数中各基准的相对权重加权。
## 延迟
通过首个 Token 的时间(秒)衡量
### 延迟:首个回答 Token 的时间
接收到首个回答 Token 的秒数 · 包含推理模型的“思考”时间
推理模型以灯泡图标标示
API 请求发送后,收到首个回答 Token 的时间(秒)。对于推理模型,这包括模型在提供回答之前的“思考”时间。对于不支持流式传输的模型,这表示接收到完整补全的时间。
## 端到端响应时间
输出 500 个 Token 的秒数,基于首个 Token 时间、推理模型的“思考”时间和输出速度计算
### 端到端响应时间
输出 500 个 Token 的秒数,包含推理模型的“思考”时间 · 越低越好
推理模型以灯泡图标标示
接收 500 个 Token 响应的秒数。关键组成部分:
- 输入时间:接收首个响应 Token 的时间
- 思考时间(仅限推理模型):推理模型在提供回答之前输出 Token 进行推理的时间。Token 数量基于对 60 个多样化提示的平均推理 Token 数(方法论详情 (https://artificialanalysis.ai/methodology/performance-benchmarking))。
- 回答时间:基于输出速度生成 500 个输出 Token 的时间
数据表示模型第一方 API(例如 OpenAI 的 o1)的性能,或在无第一方 API 时(例如 Meta 的 Llama 模型)各提供商的中间值。
## 模型规模(仅开放权重模型)
### 模型规模:总参数与活跃参数
模型总参数与推理期间活跃参数的对比
推理模型以灯泡图标标示
模型中可训练权重和偏差的总数,以十亿计。这些参数在训练期间学习,决定了模型处理和生成响应的能力。
在每次推理前向传播中实际执行的参数数量,以十亿计。对于混合专家(MoE)模型,路由机制会为每个 token 选择专家子集,导致活跃参数少于总参数。稠密模型使用所有参数,因此活跃数等于总数。
相似文章
GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型
智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。
GLM-5.2 是本地人工智能的一次胜利
GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。
GLM 5.2 是一款猛兽级模型
GLM 5.2 是一款强大的新AI模型发布,可能来自智谱AI,其性能被形容为猛兽。
GLM-5.2 是首个在 Terminal-Bench 上突破 80% 的开源权重模型,超越了所有其他开源模型。
GLM-5.2 是首个在 Terminal-Bench 上超过 80% 的开源权重模型,超越了所有其他开源模型乃至 Gemini,使其以极低的成本成为前沿水准的模型。
zai-org/GLM-5.1
GLM-5.1 是一款新一代旗舰AI模型,针对代理工程进行了优化,编码能力显著增强,在SWE-Bench Pro上达到了最先进性能,并通过扩展迭代和工具使用展示了卓越的长周期任务处理能力。