GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。

Reddit r/LocalLLaMA 模型

摘要

根据 Artificial Analysis 的 Intelligence Index,GLM-5.2 (max) 目前整体上排名第三,包含对智能性、开放性、成本和令牌使用量的详细分析。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/17 08:55

# GLM-5.2 (max) - 智能、性能与价格分析 来源:https://artificialanalysis.ai/models/glm-5-2 ## 智能(已更新) ### 人工分析智能指数 人工分析智能指数 v4.1 包含 9 项评估:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR 推理模型以灯泡图标标示 人工分析智能指数 v4.1 包含:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking),其中包含每项评估的分解说明以及我们的运行方式。 ### 按开放权重/专有模型划分的人工分析智能指数 人工分析智能指数 v4.1 包含 9 项评估:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR 推理模型以灯泡图标标示 人工分析智能指数 v4.1 包含:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking),其中包含每项评估的分解说明以及我们的运行方式。 指示模型权重是否可用。模型若标注为“商业使用受限”,则表示权重可用但商业使用受限(通常需要获取付费许可证)。 ### 智能评估 由人工分析独立测量的智能评估 · 数值越高越好 智能体真实工作任务,(Elo-500)/2000 智能体编码与终端使用 推理模型以灯泡图标标示。 虽然模型智能通常可跨用例适用,但特定评估可能对某些用例更具相关性。 人工分析智能指数 v4.1 包含:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking),其中包含每项评估的分解说明以及我们的运行方式。 ## 开放性 ### 人工分析开放性指数:得分 开放性指数在 0 到 100 的标准化尺度上评估模型开放程度(数值越高越开放) 推理模型以灯泡图标标示 ## 智能指数对比 ### 智能 vs. 每智能指数任务成本 人工分析智能指数 · 每项人工分析智能指数任务的加权平均成本(美元) 推理模型以灯泡图标标示。 每项智能指数任务的加权平均成本。每项评估的成本根据输入、缓存命中、缓存写入、推理和回答 token 价格计算,除以任务数量,并按其在智能指数中的权重加权。 人工分析智能指数 v4.1 包含:GDPval-AA v2、τ3-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR。详情请参阅智能指数方法论 (https://artificialanalysis.ai/methodology/intelligence-benchmarking),其中包含每项评估的分解说明以及我们的运行方式。 ## Token 使用(已更新) ### 每智能指数任务的输出 Token 数 在人工分析智能指数中运行一项任务所使用的输出 Token 数的加权平均值 推理模型以灯泡图标标示 每项智能指数任务所需的 Token 数量。计算方式为:每个评估的输出 Token 数乘以智能指数中各基准的相对权重,然后除以任务数量(排除重复项)。 ## 价格与成本(已更新) ### 每智能指数任务成本 每项人工分析智能指数任务的加权平均成本(美元),按 Token 类型细分。越低越好 推理模型以灯泡图标标示 每项智能指数任务的加权平均成本。每项评估的成本根据输入、缓存命中、缓存写入、推理和回答 token 价格计算,除以任务数量,并按其在智能指数中的权重加权。 ### 运行人工分析智能指数的成本 运行人工分析智能指数中所有评估的成本(美元) 推理模型以灯泡图标标示 运行人工分析智能指数中评估的成本,使用模型的输入、缓存命中、缓存写入、推理和回答 token 价格以及跨评估使用的 Token 数量(排除重复项)计算得出。 ### 定价:缓存命中、输入与输出 价格(每百万 Token 的美元数) 推理模型以灯泡图标标示 缓存提示(先前处理过)的每 Token 价格,通常相比常规输入价格有显著折扣,以每百万 Token 美元表示。此处显示的是缓存命中价格;缓存写入和缓存存储单独计费,且因提供商而异——详情请参阅“按提供商划分的缓存定价”。 请求/消息中发送给 API 的每 Token 价格,以每百万 Token 美元表示。 此处显示的混合缓存价格仅使用缓存命中价格。其他缓存成本因提供商而异: - Anthropic:单独收取缓存写入费用,5 分钟和 1 小时 TTL 费率不同(1 小时 TTL 更贵)。 - Google (Vertex/Gemini):除缓存命中定价外,还按小时收取缓存存储费用。部分提供商还对超过 20 万 Token 的提示采用分层定价。 - OpenAI、DeepSeek 等:通常仅收取缓存命中费用,无写入或存储费用。 完整分解请参见提示缓存 (https://artificialanalysis.ai/models/caching)。 模型生成的每 Token 价格(从 API 接收),以每百万 Token 美元表示。 数据表示模型第一方 API(例如 OpenAI 的 o1)的性能,或在无第一方 API 时(例如 Meta 的 Llama 模型)各提供商的中间值。 ## 上下文窗口 ### 上下文窗口 上下文窗口:Token 限制 · 越高越好 推理模型以灯泡图标标示 较大的上下文窗口适用于通常涉及大量数据推理和信息检索的 RAG(检索增强生成)LLM 工作流。 输入与输出 Token 的最大组合数量。输出 Token 通常有显著较低的限制(因模型而异)。 ## 速度(已更新) 通过输出速度(每秒 Token 数)衡量 ### 输出速度 每秒输出 Token 数 · 越高越好 推理模型以灯泡图标标示 模型生成 Token 时(即对于支持流式传输的模型,从接收到第一个 chunk 后开始)每秒接收的 Token 数。 数据表示模型第一方 API(例如 OpenAI 的 o1)的性能,或在无第一方 API 时(例如 Meta 的 Llama 模型)各提供商的中间值。 ### 每智能指数任务耗时 每项任务的加权平均挂钟时间(分钟);排除 TTFT 和执行时间 · 越低越好 推理模型以灯泡图标标示 每项人工分析智能指数任务的加权平均耗时(秒)。计算方式为:任务输出 Token 数除以输出速度,按智能指数中各基准的相对权重加权。 ## 延迟 通过首个 Token 的时间(秒)衡量 ### 延迟:首个回答 Token 的时间 接收到首个回答 Token 的秒数 · 包含推理模型的“思考”时间 推理模型以灯泡图标标示 API 请求发送后,收到首个回答 Token 的时间(秒)。对于推理模型,这包括模型在提供回答之前的“思考”时间。对于不支持流式传输的模型,这表示接收到完整补全的时间。 ## 端到端响应时间 输出 500 个 Token 的秒数,基于首个 Token 时间、推理模型的“思考”时间和输出速度计算 ### 端到端响应时间 输出 500 个 Token 的秒数,包含推理模型的“思考”时间 · 越低越好 推理模型以灯泡图标标示 接收 500 个 Token 响应的秒数。关键组成部分: - 输入时间:接收首个响应 Token 的时间 - 思考时间(仅限推理模型):推理模型在提供回答之前输出 Token 进行推理的时间。Token 数量基于对 60 个多样化提示的平均推理 Token 数(方法论详情 (https://artificialanalysis.ai/methodology/performance-benchmarking))。 - 回答时间:基于输出速度生成 500 个输出 Token 的时间 数据表示模型第一方 API(例如 OpenAI 的 o1)的性能,或在无第一方 API 时(例如 Meta 的 Llama 模型)各提供商的中间值。 ## 模型规模(仅开放权重模型) ### 模型规模:总参数与活跃参数 模型总参数与推理期间活跃参数的对比 推理模型以灯泡图标标示 模型中可训练权重和偏差的总数,以十亿计。这些参数在训练期间学习,决定了模型处理和生成响应的能力。 在每次推理前向传播中实际执行的参数数量,以十亿计。对于混合专家(MoE)模型,路由机制会为每个 token 选择专家子集,导致活跃参数少于总参数。稠密模型使用所有参数,因此活跃数等于总数。

相似文章

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

Hacker News Top

智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。

GLM-5.2 是本地人工智能的一次胜利

Reddit r/LocalLLaMA

GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。

zai-org/GLM-5.1

Hugging Face Models Trending

GLM-5.1 是一款新一代旗舰AI模型,针对代理工程进行了优化,编码能力显著增强,在SWE-Bench Pro上达到了最先进性能,并通过扩展迭代和工具使用展示了卓越的长周期任务处理能力。