GLM-5.2 是本地人工智能的一次胜利
摘要
GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。
我知道 GLM 5.2 庞大的 753B 参数规模意味着,没有企业集群的话,没人能在家里运行它。但是,能够有一个真正前沿级别、采用 MIT 许可证的编码模型公开可用,这让我感到乐观。其蒸馏潜力非常巨大。一旦社区开始在 GLM 5.2 的推理和合成数据集上微调更小的 8B 和 70B 架构,我们的日常本地设置将在未来几个月内迎来巨大提升。
编辑:我没想到有这么多人说他们可以在本地硬件上运行它。以下是数据规格:
量化等级 所需内存 最低硬件设置
FP8 权重 744 GB 至 890 GB 8x H200 (141GB) 或 8x H100 (80GB) 服务器节点
4-bit (Q4_K_M) 476 GB 至 500 GB Mac Studio 集群或 6x 80GB 企业级 GPU
2-bit (Q2_K_XL) 241 GB 至 280 GB 单台 256GB Mac Studio (Ultra) 或 RTX 4090 + 256GB 系统内存
1-bit 动态 176 GB 至 180 GB 192GB Mac Studio 或 24GB GPU + 192GB 系统内存
模型与数据集事实
预训练数据:基于 28.5 万亿 token 的语料库训练。
架构规模:总计 753B 参数,推理时每个 token 激活约 40B 参数。
上下文容量:原生支持 1,000,000 token 的上下文窗口,每次响应最多输出 131,072 token。
KV 缓存 VRAM 扩展(每 10 万 / 100 万 token)
利用 1M 上下文窗口需要额外大量 VRAM 专用于 KV 缓存。这种扩展完全取决于您的缓存量化:
16-bit (FP16/BF16):每 10 万 token 增加 15–20 GB(完整 1M 上下文额外增加约 150–200 GB)。
8-bit (FP8/INT8):每 10 万 token 增加 7.5–10 GB(完整 1M 上下文额外增加约 75–100 GB)。这平衡了准确性和内存。
4-bit (INT4):每 10 万 token 增加 3.5–5 GB(完整 1M 上下文额外增加约 35–50 GB)。大幅降低内存需求,但可能降低长上下文检索的准确性。
注意:这些信息来自网络,均为估算。为保持完全透明,我确实使用了 AI 来生成表格并分解数据。我没有耐心自己编辑格式化这一切……我只是个普通人!
相似文章
GLM-5.2 可能是目前最强大的纯文本开放权重大语言模型
中国AI实验室Z.ai发布了GLM-5.2,这是一个拥有7530亿参数的开放权重大语言模型,支持100万token的上下文窗口,采用MIT许可证。该模型在Artificial Analysis Intelligence Index上获得最高分,并在Code Arena WebDev排行榜上排名第二。
GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型
智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。
GLM 5.2 是一款猛兽级模型
GLM 5.2 是一款强大的新AI模型发布,可能来自智谱AI,其性能被形容为猛兽。
GLM-5.2: 专为长程任务打造
Z.AI推出GLM-5.2,这是一款专为长程任务设计的旗舰模型,拥有稳定的100万token上下文、改进的编码能力以及MIT开源许可证,在与Opus 4.8和GPT-5.5等领先模型的对比中展现了竞争力。
zai-org/GLM-5.1
GLM-5.1 是一款新一代旗舰AI模型,针对代理工程进行了优化,编码能力显著增强,在SWE-Bench Pro上达到了最先进性能,并通过扩展迭代和工具使用展示了卓越的长周期任务处理能力。