GLM-5.2 是本地人工智能的一次胜利

Reddit r/LocalLLaMA 2026/06/17 13:40 模型

glm-5-2 local-ai mit-license frontier-model coding-agent distillation quantization

摘要

GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型，具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。

我知道 GLM 5.2 庞大的 753B 参数规模意味着，没有企业集群的话，没人能在家里运行它。但是，能够有一个真正前沿级别、采用 MIT 许可证的编码模型公开可用，这让我感到乐观。其蒸馏潜力非常巨大。一旦社区开始在 GLM 5.2 的推理和合成数据集上微调更小的 8B 和 70B 架构，我们的日常本地设置将在未来几个月内迎来巨大提升。编辑：我没想到有这么多人说他们可以在本地硬件上运行它。以下是数据规格：量化等级所需内存最低硬件设置 FP8 权重 744 GB 至 890 GB 8x H200 (141GB) 或 8x H100 (80GB) 服务器节点 4-bit (Q4_K_M) 476 GB 至 500 GB Mac Studio 集群或 6x 80GB 企业级 GPU 2-bit (Q2_K_XL) 241 GB 至 280 GB 单台 256GB Mac Studio (Ultra) 或 RTX 4090 + 256GB 系统内存 1-bit 动态 176 GB 至 180 GB 192GB Mac Studio 或 24GB GPU + 192GB 系统内存模型与数据集事实预训练数据：基于 28.5 万亿 token 的语料库训练。架构规模：总计 753B 参数，推理时每个 token 激活约 40B 参数。上下文容量：原生支持 1,000,000 token 的上下文窗口，每次响应最多输出 131,072 token。 KV 缓存 VRAM 扩展（每 10 万 / 100 万 token）利用 1M 上下文窗口需要额外大量 VRAM 专用于 KV 缓存。这种扩展完全取决于您的缓存量化： 16-bit (FP16/BF16)：每 10 万 token 增加 15–20 GB（完整 1M 上下文额外增加约 150–200 GB）。 8-bit (FP8/INT8)：每 10 万 token 增加 7.5–10 GB（完整 1M 上下文额外增加约 75–100 GB）。这平衡了准确性和内存。 4-bit (INT4)：每 10 万 token 增加 3.5–5 GB（完整 1M 上下文额外增加约 35–50 GB）。大幅降低内存需求，但可能降低长上下文检索的准确性。注意：这些信息来自网络，均为估算。为保持完全透明，我确实使用了 AI 来生成表格并分解数据。我没有耐心自己编辑格式化这一切……我只是个普通人！

查看原文

GLM-5.2 是本地人工智能的一次胜利

相似文章

GLM-5.2 可能是目前最强大的纯文本开放权重大语言模型

GLM-5.2 是开放代理的一次重大变革

GLM-5.2 为开放模型树立更高标杆（14分钟阅读）

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

GLM 5.2 是一款猛兽级模型

提交意见反馈