@hooeem: https://x.com/hooeem/status/2068752941553476002

X AI KOLs Timeline 2026/06/21 17:48 模型

open-source glm-5-2 coding-benchmarks local-ai agentic-coding setup-guide cost-comparison

摘要

一份全面指南，介绍如何部署 GLM 5.2（一款自称在编程基准测试中超越 GPT-5.5 且成本更低的开源 AI 模型），涵盖云端和本地部署方案。

https://t.co/xTA9Mdowhi

查看原文

查看缓存全文

缓存时间: 2026/06/22 07:40

我想搭建一个不可阻挡的本地 AI（完整指南）：

如果你能成功搭建 GLM 5.2，你就能真正拥有更便宜的代理循环，节省 Claude/Codex 会话的费用，处理超大规模代码库，自动化那些无聊的任务，测试本地代理，以及更多功能。

它是目前可用最强的开源模型。
它在多个编码基准测试中击败了 GPT-5.5。
它在大多数原始分数上仍落后于 Claude Opus 4.8（但不是全部）。

这三个事实同时成立，但 GLM 5.2 的优势在于它使用起来非常便宜，同时与当前其他前沿模型相比也相当接近。

所以，如果你想要一个自有的、仓库级规模的、能执行代理编码的引擎，便宜又强大的模型，那就继续往下看。

基准测试：

感谢 GPT 为本文中的这些小图标创作图片。

那么它擅长什么呢？

GLM-5.2 是一个“以编码和代理能力优先”的基础模型。它专为长周期、任务驱动的工作而设计，而非对话聊天。Z.ai 自己的描述是，该模型能“稳定地维持长期工作”，跨越“漫长、混乱的编码代理轨迹”。

简单来说，它特么擅长：

代理式、仓库级别的编码。
前端与设计。
长上下文工程。
数学和推理。

它不太擅长的：

无工具的抽象推理。
视觉与音频。
冗长与速度。
创意写作。

它在大多数共享编码基准测试中落后于 Claude Opus 4.8，差距从不到 1 分到大约 21 分不等，具体取决于基准。与 GPT-5.5 相比则好坏参半：它在一些编码任务上获胜，在另一些上落败。

但这其实不是重点。相比之下，这已经非常非常好了，并且在功能和成本方面彻底改变了游戏规则。

哦，它要多少钱？

便宜，简短。

如果你正在看上面的表格，只要知道：它非常便宜。

好了老铁，那我怎么设置呢？

你有几个选项，所以我在本节为每个选项提供了一个指南。要么云端，要么本地自托管。我先分享云端版本：

路径 A：云端

这是几乎每个人都应该先做的。

选项 1：GLM Coding Plan 订阅（交互式编码的最佳价值）

层级： Lite 每月 $18 起。Pro 和 Max 更贵（根据二手消息，基础价格大约 $72 和 $160/月，请以实时订阅页面为准）。折扣为月度 10%，季度 20%，年度 30%，这样 Lite 年度计划大约每月 $12.60。

限制是基于每 5 小时滚动周期的提示数：Lite 约 80，Pro 约 400，Max 约 1600。周上限为 Lite 400 / Pro 2000 / Max 8000。一个“提示”会触发大约 15 到 20 次模型调用。

MCP 月度配额（网络搜索和阅读器）：Lite 100，Pro 1000，Max 4000。

配额乘数： 高峰时段（UTC+8 14:00 至 18:00）GLM-5.2 扣除 3 倍，非高峰时段 2 倍。限时促销活动使其在非高峰时段为 1 倍，持续到 2026 年 9 月底。

（我觉得这些信息有点过度，不过无所谓，我希望这篇指南能面面俱到，但基本上你可以直接去 z.ai/subscribe 订阅。所有层级都支持 GLM 5.2。该计划限制使用官方支持的工具（Claude Code, Cline, OpenCode, Roo Code, Kilo Code, OpenClaw, Cursor, Crush, Goose 等）。SDK 或不受支持的工具访问可能会被限速。

Claude Code 设置（精确步骤）

获取 Z.ai API 密钥：登录 z.ai/chat，打开个人菜单，转到 API Keys，创建一个新密钥（之后可以重新复制）。

然后运行自动助手（Coding Tool Helper / npx @z_ai/coding-helper）或编辑 ~/.claude/settings.json：

运行 claude，用 /status 验证（应显示 GLM-5.2），用 /effort 切换努力级别（xhigh/max/ultracode 映射到 Max，low/medium/high 映射到 High）。

三个重要细节：

[1m] 后缀选择 100 万上下文变体。必须设置 API_TIMEOUT_MS=3000000（50 分钟），以免长时间调用被终止。CLAUD_CODE_AUTO_COMPACT_WINDOW=1000000 让 Claude Code 使用完整窗口后再进行摘要。CLAUD_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 出现在 Z.ai 的配置示例中，用于抑制网关不期望的后台调用。

用 /status 验证路由。这是官方检查，应显示 GLM-5.2。自我识别问题（“你是什么模型？”）只能作为粗略的合理性检查，不能作为确定性检查，因为模型经常通过系统提示或兼容性包装器错误报告自己。

一个方便的 shell 别名（先设置 ZAI_API_KEY）：

其他编码工具

基础 URL：

Anthropic 兼容：https://api.z.ai/api/anthropic（用于 Claude Code 和 Anthropic SDK）OpenAI 兼容编码端点：https://api.z.ai/api/coding/paas/v4（用于 Cline, OpenCode, Roo Code, Kilo Code, Goose, Crush, OpenClaw）通用程序化端点：https://api.z.ai/api/paas/v4

模型字符串：glm-5.2 或 glm-5.2[1m]（用于完整上下文）。对于 OpenAI 兼容的 CLI：

OpenClaw 用户可以手动添加一个 glm-5.2 模型对象（contextWindow 1000000, maxTokens 131072）到 ~/.openclaw/openclaw.json，将其设置为 agents.defaults.model.primary，然后运行 openclaw gateway restart。

选项 2：按需付费 API

在 z.ai/chat 创建账户，生成密钥，使用上述端点。费率：输入 $1.40/M，缓存输入 $0.26/M，输出 $4.40/M（缓存输入存储目前是限时免费促销）。

缓存很重要。将稳定前缀放在提示的前面，你可以减少约 81% 的重复上下文输入。

实际例子：一个 10 万输入、2 万输出的编码回合，成本大约 $0.14 加上 $0.088，所以约 $0.23。如果其中有 8 万由缓存提供，则成本降至约 $0.13。

也可以通过 OpenRouter（z-ai/glm-5.2，混合提供商约 $1.20/$ 4.10，支持 Balanced/Nitro/Exacto 路由）和 Requesty（zai/glm-5.2，base_url https://router.requesty.ai/v1）使用。

选项 3：Ollama 云端路由

这运行在 Ollama 的美国英伟达 Blackwell GPU 上，拥有大型托管上下文窗口，需要 Ollama 云端订阅。:cloud 标签表示托管，而非本地。本地 GGUF 可以通过 Unsloth 的 Hugging Face 路线使用（例如 hf.co/unsloth/GLM-5.2-GGUF），但不要将其与 Ollama 官方托管的 glm-5.2:cloud 模型混淆。

你可以针对它启动代理，例如 ollama launch hermes –model glm-5.2:cloud，或者访问本地守护进程（http://localhost:11434/v1）并使用模型 glm-5.2:cloud。

路径 B：真正本地与自托管

硬件现实检查

完整 BF16 权重约 1.5 TB。FP8 约 756 GB 磁盘。参考生产部署是 8 块 H200 或 8 块 H20（每块 141 GB）用于单节点 FP8，或 8 块 B200（每块 180 GB）用于完整 100 万上下文。

这意味着：特么贵。

但还有其他选项可用，我会在这里解释（请注意，这会变得极客，没有其他方法可以不深入细节地提供所需信息，所以如果你需要进一步分解，只需复制粘贴以下所有内容，并让一个你选择的模型将其分解成易于理解的部分）。

量化，现实的本地路径：

Unsloth 在第一天发布了动态 GGUF 量化（unsloth/GLM-5.2-GGUF）：

动态 2 位 (UD-IQ2_M)：约 239 GB。 可装入 256 GB 统一内存 Mac，或 1 块 24 GB GPU 加 256 GB 内存（通过 MoE 卸载）。保留约 82% top-1 准确率（KLD 测试）。对大多数人来说是最佳选择。

动态 1 位： 约 217 GB（适合约 223 GB 内存），约 76% 准确率。

4 位 / 5 位（动态）： 大小大致在 365 GB 到 467 GB 之间，取决于量化等级。UD-Q4_K_M 约 373 GB；UD-Q4_K_XL 约 467 GB；UD-Q5_K_XL 更高。Unsloth 描述这些通常通过 KLD 测试是无损的，因此用于分布外工作。

8 位： 约 810 GB 内存。

参考格式： BF16（zai-org/GLM-5.2）和 FP8（zai-org/GLM-5.2-FP8，约 756 GB，流行的自托管选择。FP8 下载量初期是 BF16 的 8 倍左右）。

MoE 意味着量化误差会在非活跃专家中被稀释，因此 2 位在编码中仍然出人意料地可用。

性能预期：

在消费级硬件上使用 2 位量化，预计约 3 到 9 个 token 每秒（社区报告基于 M3/M4 Ultra Mac Studio，256 GB）。H200 搭配 Q2_K_XL 约 8.7 tok/s。两者均为传闻，直到你在自己的机器上测试。适合批处理和代理编码，不适合快速聊天。

在消费级设备上运行完整的 100 万上下文是不切实际的。你需要多 GPU 数据中心配置加上 KV 缓存量化。

推理引擎和命令

llama.cpp (Mac/PC, GGUF)。 使用 CUDA 构建（cmake -B build -DGGML_CUDA=ON）或 Metal（Mac 自动）。下载一个量化版本：

提供服务：

这会暴露一个 OpenAI 兼容端点在 localhost:8080。使用 KV 缓存量化（q4_1/q5_1）来将上下文扩展到大约 3 倍。

vLLM (FP8, 8 GPU, v0.23+)：

SGLang (v0.5.13+)：

（添加 –tp-size 8 用于多 GPU）

也支持： xLLM (v0.10+, 华为昇腾), Transformers (v0.5.12+), KTransformers (v0.5.12+)。

LM Studio： 图形界面。搜索 “Unsloth GLM-5.2-GGUF”，一键下载，内置 OpenAI 兼容本地服务器。最适合非 CLI 用户和轻松切换量化。

完全本地驱动代理工作流

一旦 llama.cpp、vLLM、SGLang 或 LM Studio 暴露了 OpenAI 兼容端点（例如 http://localhost:8080/v1），就可以将 Aider、Cline、Hermes 或 Claude Code（通过 OpenAI 兼容桥接或路由器）指向它。将 base_url 设为你的本地服务器，模型设为你的别名。

这样你就拥有了一个完全自有的代理编码循环。没有云端依赖。没有数据离开你的机器。

但是…… 实际运行本地需要多少钱？

这是多年来购买本地 LLM 硬件的最差时机。 2026 年由 AI 驱动的 DRAM 短缺已经抬高了 GLM-5.2 最依赖的组件（内存和 VRAM）的价格，并且短缺预计至少持续到 2027 年第四季度，到 2028 年之前都不会有真正的价格缓解。

该模型是内存受限的。即使是可用的最小量化（约 239 GB）也必须完全驻留在 RAM 或 VRAM 中，因此成本故事实际上就是内存价格故事。

广泛的短缺情况已有充分记录。下面的具体美元数字是 2026 年年中的现货市场估算，变化很快，且因地区和配置而异。在花钱之前请检查实时零售价和 Apple 定价。

第 1 层：Mac Studio（现实的“单箱”），约 $6,000，如果能买到的话

256 GB 的 M3 Ultra 是最干净的消费级选择，得益于统一内存：CPU 和 GPU 共享一个大内存池，因此一个箱子就能容纳原本需要一机架 GPU 的模型。

2026 年 3 月，Apple 将 96GB 升级到 256GB 的价格从 $1,600 提高到 $2,000，并因短缺而停产了 512 GB 选项。现在 256 GB 的 M3 Ultra 全部加起来大约 $6,000（美国估算，取决于配置和国家），且据报道供应紧张。

旧的 512 GB 机型曾可以轻松运行更大的近无损量化版本，现在在二手市场上溢价出售。功耗仍然很低，估计 200 到 300W。下面有一个专门的 Mac Studio 操作指南。

第 2 层：GPU 加系统内存卸载构建，约 $4,000 到 $8,000，且比 Mac 慢

“预算”路线（1 块 24 GB GPU 加 256 GB 内存，通过 llama.cpp 的 MoE 卸载）也被同样的短缺所破坏。一套 256 GB DDR5 内存套件的价格已经涨到了接近高端 GPU 的价格，而 RTX 5090（建议零售价 $1,999）的销售价格远高于官方定价。这两个数字都是波动的现货市场价格，因此在预算前请检查当前零售价。

加上 CPU、主板、电源、存储，你会达到 $4,000 到 $8,000，得到的机器比 Mac 慢。二手 RTX 3090（24 GB）配置更便宜，但即使是二手卡价格也偏高。

第 3 层：正确运行（FP8，全速，长上下文），购买需 $250,000 以上

我特么才不会正确运行它哈哈。

参考配置：8 块 H200 级 GPU（每块 141 GB，每块约 $30k 到 $40k），仅显卡就需要约 $250,000 到 $320,000，加上机箱、网络和电源则超过 $300k。这是数据中心级别的采购，不是家庭构建，并且每年带来四位数的电力和冷却费用。

但你总可以按需租用它！

不同选项的价格表：

能在 Mac Studio 上运行吗？能

Mac Studio 是目前最适合 GLM-5.2 的消费级机器，正是因为统一内存让一个箱子能容纳原本需要多个 GPU 的模型。

在你能买到的 256 GB Studio 上，1 位量化可轻松运行，2 位则比较紧张（macOS 需要一部分内存，你还需要为 KV/上下文缓存留出空间）。预计约 3 到 9 个 token 每秒：适合“一发就忘”的代理编码，但对话体验会令人沮丧。

步骤 1. 安装 LM Studio（最简单，图形界面，一键下载，内置 OpenAI 兼容服务器）或 llama.cpp（更多控制，Mac 上 Metal 自动）。

步骤 2. 下载 unsloth/GLM-5.2-GGUF 并选择 1 位（安全）或 2 位（紧张）的量化版本。CLI：

步骤 3. 提高 macOS GPU 有线内存限制，以便模型能占用大部分内存池，例如：

（约 240 GB。根据你的配置调整，给系统留出约 16 GB。）

警告：高级，仅限 Mac 的调整。 这会改变 GPU 有线内存的行为，如果设置过于激进可能会使系统不稳定。只有在你理解这种权衡时才使用它，给操作系统留足空间，并准备好如果在重启后出现任何问题就恢复设置。

步骤 4. 提供服务。在 LM Studio 中加载模型并启动本地服务器。或者使用 llama.cpp：

（使用 KV 缓存量化来扩展上下文。）

步骤 5. 将你的代理工具指向它。设置 base_url 为 http://localhost:8080/v1（或 LM Studio 的端口），在 Claude Code（通过 OpenAI 桥接）、Cline 或 Aider 中将模型设为你的别名，即可实现完全离线的编码循环。

提示与优化（模型特定）

把它当作代理，而不是聊天机器人。 GLM-5.2 经过后期训练，适用于目标驱动、工具使用、长期执行。给它一个明确的目标、相关上下文、成功标准和约束条件。跳过对话式的来回交流。

努力级别切换。 对于困难或重要的编码任务使用 Max 努力级别（更深入的推理，更稳定的多步执行）。对于简单或快速的工作使用 High。作为粗略的启发（而非精确度量），High 大约将输出 token 减半，而能力损失只有几个百分点，因此它是一个真正的成本和延迟杠杆。在 Claude Code 中使用 /effort。通过 API 设置 reasoning_effort（“high”，或取消设置/任何其他值表示 Max），并设置 enable_thinking=false 以获得便宜快速的补全。

为 100 万窗口加载上下文。 一次性加载所有相关文件、规范、测试，而不是分块。将稳定内容（系统提示、工具定义、仓库映射、未更改文件）放在前面，以便应用提示缓存（缓存前缀约 81% 折扣），并将变量请求放在末尾。

一个重要注意事项：在 80 万以上 token 时，长上下文检索质量尚未经过独立验证。将 100 万视为上限而非保证，并在你自己的仓库上测试。

最佳提示结构。 一句话描述任务，加上上下文（文件、环境、先前决定），加上明确成功标准，加上约束条件（库、风格、不要更改什么）。将其与你的工具中的自主运行或计划模式功能结合，用于长时间的代理会话。

集成技巧。 MCP 服务器（通过 GLM-4.6V 的视觉 MCP，网络搜索/阅读器 MCP）通过 Coding Plan 工作，并在 Claude Code 和 Cline 内使用。

注意一个已知故障模式：在长时间代理循环中，Anthropic 桥接偶尔会丢失嵌套工具结果内容。症状是模型重复调用工具。

@hooeem: https://x.com/hooeem/status/2068752941553476002

我想搭建一个不可阻挡的本地 AI（完整指南）：

路径 A：云端

路径 B：真正本地与自托管

能在 Mac Studio 上运行吗？能

提示与优化（模型特定）

相似文章

GLM-5.2 是本地人工智能的一次胜利

@startupideaspod: https://x.com/startupideaspod/status/2069494373604282771

如果你还没用，快切换到GLM-5.2

GLM-5.2 现已可在 HuggingChat 上使用

GLM-5.2: 专为长程任务打造

提交意见反馈