GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。

Reddit r/LocalLLaMA 2026/06/17 07:11 模型

glm-5-2 artificial-analysis benchmark open-source proprietary performance cost-analysis

摘要

根据 Artificial Analysis 的 Intelligence Index，GLM-5.2 (max) 目前整体上排名第三，包含对智能性、开放性、成本和令牌使用量的详细分析。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/17 08:55

# GLM-5.2 (max) - 智能、性能与价格分析来源：https://artificialanalysis.ai/models/glm-5-2 ## 智能（已更新） ### 人工分析智能指数人工分析智能指数 v4.1 包含 9 项评估：GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR 推理模型以灯泡图标标示人工分析智能指数 v4.1 包含：GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking)，其中包含每项评估的分解说明以及我们的运行方式。 ### 按开放权重/专有模型划分的人工分析智能指数人工分析智能指数 v4.1 包含 9 项评估：GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR 推理模型以灯泡图标标示人工分析智能指数 v4.1 包含：GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking)，其中包含每项评估的分解说明以及我们的运行方式。指示模型权重是否可用。模型若标注为“商业使用受限”，则表示权重可用但商业使用受限（通常需要获取付费许可证）。 ### 智能评估由人工分析独立测量的智能评估 · 数值越高越好智能体真实工作任务，(Elo-500)/2000 智能体编码与终端使用推理模型以灯泡图标标示。虽然模型智能通常可跨用例适用，但特定评估可能对某些用例更具相关性。人工分析智能指数 v4.1 包含：GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking)，其中包含每项评估的分解说明以及我们的运行方式。 ## 开放性 ### 人工分析开放性指数：得分开放性指数在 0 到 100 的标准化尺度上评估模型开放程度（数值越高越开放）推理模型以灯泡图标标示 ## 智能指数对比 ### 智能 vs. 每智能指数任务成本人工分析智能指数 · 每项人工分析智能指数任务的加权平均成本（美元）推理模型以灯泡图标标示。每项智能指数任务的加权平均成本。每项评估的成本根据输入、缓存命中、缓存写入、推理和回答 token 价格计算，除以任务数量，并按其在智能指数中的权重加权。人工分析智能指数 v4.1 包含：GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking)，其中包含每项评估的分解说明以及我们的运行方式。 ## Token 使用（已更新） ### 每智能指数任务的输出 Token 数在人工分析智能指数中运行一项任务所使用的输出 Token 数的加权平均值推理模型以灯泡图标标示每项智能指数任务所需的 Token 数量。计算方式为：每个评估的输出 Token 数乘以智能指数中各基准的相对权重，然后除以任务数量（排除重复项）。 ## 价格与成本（已更新） ### 每智能指数任务成本每项人工分析智能指数任务的加权平均成本（美元），按 Token 类型细分。越低越好推理模型以灯泡图标标示每项智能指数任务的加权平均成本。每项评估的成本根据输入、缓存命中、缓存写入、推理和回答 token 价格计算，除以任务数量，并按其在智能指数中的权重加权。 ### 运行人工分析智能指数的成本运行人工分析智能指数中所有评估的成本（美元）推理模型以灯泡图标标示运行人工分析智能指数中评估的成本，使用模型的输入、缓存命中、缓存写入、推理和回答 token 价格以及跨评估使用的 Token 数量（排除重复项）计算得出。 ### 定价：缓存命中、输入与输出价格（每百万 Token 的美元数）推理模型以灯泡图标标示缓存提示（先前处理过）的每 Token 价格，通常相比常规输入价格有显著折扣，以每百万 Token 美元表示。此处显示的是缓存命中价格；缓存写入和缓存存储单独计费，且因提供商而异——详情请参阅“按提供商划分的缓存定价”。请求/消息中发送给 API 的每 Token 价格，以每百万 Token 美元表示。此处显示的混合缓存价格仅使用缓存命中价格。其他缓存成本因提供商而异： - Anthropic：单独收取缓存写入费用，5 分钟和 1 小时 TTL 费率不同（1 小时 TTL 更贵）。 - Google (Vertex/Gemini)：除缓存命中定价外，还按小时收取缓存存储费用。部分提供商还对超过 20 万 Token 的提示采用分层定价。 - OpenAI、DeepSeek 等：通常仅收取缓存命中费用，无写入或存储费用。完整分解请参见提示缓存 (https://artificialanalysis.ai/models/caching)。模型生成的每 Token 价格（从 API 接收），以每百万 Token 美元表示。数据表示模型第一方 API（例如 OpenAI 的 o1）的性能，或在无第一方 API 时（例如 Meta 的 Llama 模型）各提供商的中间值。 ## 上下文窗口 ### 上下文窗口上下文窗口：Token 限制 · 越高越好推理模型以灯泡图标标示较大的上下文窗口适用于通常涉及大量数据推理和信息检索的 RAG（检索增强生成）LLM 工作流。输入与输出 Token 的最大组合数量。输出 Token 通常有显著较低的限制（因模型而异）。 ## 速度（已更新）通过输出速度（每秒 Token 数）衡量 ### 输出速度每秒输出 Token 数 · 越高越好推理模型以灯泡图标标示模型生成 Token 时（即对于支持流式传输的模型，从接收到第一个 chunk 后开始）每秒接收的 Token 数。数据表示模型第一方 API（例如 OpenAI 的 o1）的性能，或在无第一方 API 时（例如 Meta 的 Llama 模型）各提供商的中间值。 ### 每智能指数任务耗时每项任务的加权平均挂钟时间（分钟）；排除 TTFT 和执行时间 · 越低越好推理模型以灯泡图标标示每项人工分析智能指数任务的加权平均耗时（秒）。计算方式为：任务输出 Token 数除以输出速度，按智能指数中各基准的相对权重加权。 ## 延迟通过首个 Token 的时间（秒）衡量 ### 延迟：首个回答 Token 的时间接收到首个回答 Token 的秒数 · 包含推理模型的“思考”时间推理模型以灯泡图标标示 API 请求发送后，收到首个回答 Token 的时间（秒）。对于推理模型，这包括模型在提供回答之前的“思考”时间。对于不支持流式传输的模型，这表示接收到完整补全的时间。 ## 端到端响应时间输出 500 个 Token 的秒数，基于首个 Token 时间、推理模型的“思考”时间和输出速度计算 ### 端到端响应时间输出 500 个 Token 的秒数，包含推理模型的“思考”时间 · 越低越好推理模型以灯泡图标标示接收 500 个 Token 响应的秒数。关键组成部分： - 输入时间：接收首个响应 Token 的时间 - 思考时间（仅限推理模型）：推理模型在提供回答之前输出 Token 进行推理的时间。Token 数量基于对 60 个多样化提示的平均推理 Token 数（方法论详情 (https://artificialanalysis.ai/methodology/performance-benchmarking)）。 - 回答时间：基于输出速度生成 500 个输出 Token 的时间数据表示模型第一方 API（例如 OpenAI 的 o1）的性能，或在无第一方 API 时（例如 Meta 的 Llama 模型）各提供商的中间值。 ## 模型规模（仅开放权重模型） ### 模型规模：总参数与活跃参数模型总参数与推理期间活跃参数的对比推理模型以灯泡图标标示模型中可训练权重和偏差的总数，以十亿计。这些参数在训练期间学习，决定了模型处理和生成响应的能力。在每次推理前向传播中实际执行的参数数量，以十亿计。对于混合专家（MoE）模型，路由机制会为每个 token 选择专家子集，导致活跃参数少于总参数。稠密模型使用所有参数，因此活跃数等于总数。

GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。

相似文章

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

GLM-5.2 是本地人工智能的一次胜利

GLM 5.2 是一款猛兽级模型

GLM-5.2 是首个在 Terminal-Bench 上突破 80% 的开源权重模型，超越了所有其他开源模型。

zai-org/GLM-5.1

提交意见反馈