@hooeem: https://x.com/hooeem/status/2068752941553476002
摘要
一份全面指南,介绍如何部署 GLM 5.2(一款自称在编程基准测试中超越 GPT-5.5 且成本更低的开源 AI 模型),涵盖云端和本地部署方案。
查看缓存全文
缓存时间: 2026/06/22 07:40
我想搭建一个不可阻挡的本地 AI(完整指南):
如果你能成功搭建 GLM 5.2,你就能真正拥有更便宜的代理循环,节省 Claude/Codex 会话的费用,处理超大规模代码库,自动化那些无聊的任务,测试本地代理,以及更多功能。
-
它是目前可用最强的开源模型。
-
它在多个编码基准测试中击败了 GPT-5.5。
-
它在大多数原始分数上仍落后于 Claude Opus 4.8(但不是全部)。
这三个事实同时成立,但 GLM 5.2 的优势在于它使用起来非常便宜,同时与当前其他前沿模型相比也相当接近。
所以,如果你想要一个自有的、仓库级规模的、能执行代理编码的引擎,便宜又强大的模型,那就继续往下看。
基准测试:
感谢 GPT 为本文中的这些小图标创作图片。
感谢 GPT 为本文中的这些小图标创作图片。
那么它擅长什么呢?
GLM-5.2 是一个“以编码和代理能力优先”的基础模型。它专为长周期、任务驱动的工作而设计,而非对话聊天。Z.ai 自己的描述是,该模型能“稳定地维持长期工作”,跨越“漫长、混乱的编码代理轨迹”。
简单来说,它特么擅长:
-
代理式、仓库级别的编码。
-
前端与设计。
-
长上下文工程。
-
数学和推理。
它不太擅长的:
-
无工具的抽象推理。
-
视觉与音频。
-
冗长与速度。
-
创意写作。
它在大多数共享编码基准测试中落后于 Claude Opus 4.8,差距从不到 1 分到大约 21 分不等,具体取决于基准。与 GPT-5.5 相比则好坏参半:它在一些编码任务上获胜,在另一些上落败。
但这其实不是重点。相比之下,这已经非常非常好了,并且在功能和成本方面彻底改变了游戏规则。
哦,它要多少钱?
便宜,简短。
便宜,简短。
如果你正在看上面的表格,只要知道:它非常便宜。
如果你正在看上面的表格,只要知道:它非常便宜。
好了老铁,那我怎么设置呢?
你有几个选项,所以我在本节为每个选项提供了一个指南。要么云端,要么本地自托管。我先分享云端版本:
路径 A:云端
这是几乎每个人都应该先做的。
选项 1:GLM Coding Plan 订阅(交互式编码的最佳价值)
层级: Lite 每月 $18 起。Pro 和 Max 更贵(根据二手消息,基础价格大约 $72 和 $160/月,请以实时订阅页面为准)。折扣为月度 10%,季度 20%,年度 30%,这样 Lite 年度计划大约每月 $12.60。
限制 是基于每 5 小时滚动周期的提示数:Lite 约 80,Pro 约 400,Max 约 1600。周上限为 Lite 400 / Pro 2000 / Max 8000。一个“提示”会触发大约 15 到 20 次模型调用。
MCP 月度配额(网络搜索和阅读器):Lite 100,Pro 1000,Max 4000。
配额乘数: 高峰时段(UTC+8 14:00 至 18:00)GLM-5.2 扣除 3 倍,非高峰时段 2 倍。限时促销活动使其在非高峰时段为 1 倍,持续到 2026 年 9 月底。
(我觉得这些信息有点过度,不过无所谓,我希望这篇指南能面面俱到,但基本上你可以直接去 z.ai/subscribe 订阅。所有层级都支持 GLM 5.2。该计划限制使用官方支持的工具(Claude Code, Cline, OpenCode, Roo Code, Kilo Code, OpenClaw, Cursor, Crush, Goose 等)。SDK 或不受支持的工具访问可能会被限速。
Claude Code 设置(精确步骤)
获取 Z.ai API 密钥:登录 z.ai/chat,打开个人菜单,转到 API Keys,创建一个新密钥(之后可以重新复制)。
然后运行自动助手(Coding Tool Helper / npx @z_ai/coding-helper)或编辑 ~/.claude/settings.json:
运行 claude,用 /status 验证(应显示 GLM-5.2),用 /effort 切换努力级别(xhigh/max/ultracode 映射到 Max,low/medium/high 映射到 High)。
三个重要细节:
[1m] 后缀选择 100 万上下文变体。必须设置 API_TIMEOUT_MS=3000000(50 分钟),以免长时间调用被终止。CLAUD_CODE_AUTO_COMPACT_WINDOW=1000000 让 Claude Code 使用完整窗口后再进行摘要。CLAUD_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 出现在 Z.ai 的配置示例中,用于抑制网关不期望的后台调用。
用 /status 验证路由。这是官方检查,应显示 GLM-5.2。自我识别问题(“你是什么模型?”)只能作为粗略的合理性检查,不能作为确定性检查,因为模型经常通过系统提示或兼容性包装器错误报告自己。
一个方便的 shell 别名(先设置 ZAI_API_KEY):
其他编码工具
基础 URL:
Anthropic 兼容:https://api.z.ai/api/anthropic(用于 Claude Code 和 Anthropic SDK)OpenAI 兼容编码端点:https://api.z.ai/api/coding/paas/v4(用于 Cline, OpenCode, Roo Code, Kilo Code, Goose, Crush, OpenClaw)通用程序化端点:https://api.z.ai/api/paas/v4
模型字符串:glm-5.2 或 glm-5.2[1m](用于完整上下文)。对于 OpenAI 兼容的 CLI:
OpenClaw 用户可以手动添加一个 glm-5.2 模型对象(contextWindow 1000000, maxTokens 131072)到 ~/.openclaw/openclaw.json,将其设置为 agents.defaults.model.primary,然后运行 openclaw gateway restart。
选项 2:按需付费 API
在 z.ai/chat 创建账户,生成密钥,使用上述端点。费率:输入 $1.40/M,缓存输入 $0.26/M,输出 $4.40/M(缓存输入存储目前是限时免费促销)。
缓存很重要。将稳定前缀放在提示的前面,你可以减少约 81% 的重复上下文输入。
实际例子:一个 10 万输入、2 万输出的编码回合,成本大约 $0.14 加上 $0.088,所以约 $0.23。如果其中有 8 万由缓存提供,则成本降至约 $0.13。
也可以通过 OpenRouter(z-ai/glm-5.2,混合提供商约 1.20/4.10,支持 Balanced/Nitro/Exacto 路由)和 Requesty(zai/glm-5.2,base_url https://router.requesty.ai/v1)使用。
选项 3:Ollama 云端路由
这运行在 Ollama 的美国英伟达 Blackwell GPU 上,拥有大型托管上下文窗口,需要 Ollama 云端订阅。:cloud 标签表示托管,而非本地。本地 GGUF 可以通过 Unsloth 的 Hugging Face 路线使用(例如 hf.co/unsloth/GLM-5.2-GGUF),但不要将其与 Ollama 官方托管的 glm-5.2:cloud 模型混淆。
你可以针对它启动代理,例如 ollama launch hermes –model glm-5.2:cloud,或者访问本地守护进程(http://localhost:11434/v1)并使用模型 glm-5.2:cloud。
路径 B:真正本地与自托管
硬件现实检查
完整 BF16 权重约 1.5 TB。FP8 约 756 GB 磁盘。参考生产部署是 8 块 H200 或 8 块 H20(每块 141 GB)用于单节点 FP8,或 8 块 B200(每块 180 GB)用于完整 100 万上下文。
这意味着:特么贵。
但还有其他选项可用,我会在这里解释(请注意,这会变得极客,没有其他方法可以不深入细节地提供所需信息,所以如果你需要进一步分解,只需复制粘贴以下所有内容,并让一个你选择的模型将其分解成易于理解的部分)。
量化,现实的本地路径:
Unsloth 在第一天发布了动态 GGUF 量化(unsloth/GLM-5.2-GGUF):
动态 2 位 (UD-IQ2_M):约 239 GB。 可装入 256 GB 统一内存 Mac,或 1 块 24 GB GPU 加 256 GB 内存(通过 MoE 卸载)。保留约 82% top-1 准确率(KLD 测试)。对大多数人来说是最佳选择。
动态 1 位: 约 217 GB(适合约 223 GB 内存),约 76% 准确率。
4 位 / 5 位(动态): 大小大致在 365 GB 到 467 GB 之间,取决于量化等级。UD-Q4_K_M 约 373 GB;UD-Q4_K_XL 约 467 GB;UD-Q5_K_XL 更高。Unsloth 描述这些通常通过 KLD 测试是无损的,因此用于分布外工作。
8 位: 约 810 GB 内存。
参考格式: BF16(zai-org/GLM-5.2)和 FP8(zai-org/GLM-5.2-FP8,约 756 GB,流行的自托管选择。FP8 下载量初期是 BF16 的 8 倍左右)。
MoE 意味着量化误差会在非活跃专家中被稀释,因此 2 位在编码中仍然出人意料地可用。
性能预期:
在消费级硬件上使用 2 位量化,预计约 3 到 9 个 token 每秒(社区报告基于 M3/M4 Ultra Mac Studio,256 GB)。H200 搭配 Q2_K_XL 约 8.7 tok/s。两者均为传闻,直到你在自己的机器上测试。适合批处理和代理编码,不适合快速聊天。
在消费级设备上运行完整的 100 万上下文是不切实际的。你需要多 GPU 数据中心配置加上 KV 缓存量化。
推理引擎和命令
llama.cpp (Mac/PC, GGUF)。 使用 CUDA 构建(cmake -B build -DGGML_CUDA=ON)或 Metal(Mac 自动)。下载一个量化版本:
提供服务:
这会暴露一个 OpenAI 兼容端点在 localhost:8080。使用 KV 缓存量化(q4_1/q5_1)来将上下文扩展到大约 3 倍。
vLLM (FP8, 8 GPU, v0.23+):
SGLang (v0.5.13+):
(添加 –tp-size 8 用于多 GPU)
也支持: xLLM (v0.10+, 华为昇腾), Transformers (v0.5.12+), KTransformers (v0.5.12+)。
LM Studio: 图形界面。搜索 “Unsloth GLM-5.2-GGUF”,一键下载,内置 OpenAI 兼容本地服务器。最适合非 CLI 用户和轻松切换量化。
完全本地驱动代理工作流
一旦 llama.cpp、vLLM、SGLang 或 LM Studio 暴露了 OpenAI 兼容端点(例如 http://localhost:8080/v1),就可以将 Aider、Cline、Hermes 或 Claude Code(通过 OpenAI 兼容桥接或路由器)指向它。将 base_url 设为你的本地服务器,模型设为你的别名。
这样你就拥有了一个完全自有的代理编码循环。没有云端依赖。没有数据离开你的机器。
但是…… 实际运行本地需要多少钱?
这是多年来购买本地 LLM 硬件的最差时机。 2026 年由 AI 驱动的 DRAM 短缺已经抬高了 GLM-5.2 最依赖的组件(内存和 VRAM)的价格,并且短缺预计至少持续到 2027 年第四季度,到 2028 年之前都不会有真正的价格缓解。
该模型是内存受限的。即使是可用的最小量化(约 239 GB)也必须完全驻留在 RAM 或 VRAM 中,因此成本故事实际上就是内存价格故事。
广泛的短缺情况已有充分记录。下面的具体美元数字是 2026 年年中的现货市场估算,变化很快,且因地区和配置而异。在花钱之前请检查实时零售价和 Apple 定价。
第 1 层:Mac Studio(现实的“单箱”),约 $6,000,如果能买到的话
256 GB 的 M3 Ultra 是最干净的消费级选择,得益于统一内存:CPU 和 GPU 共享一个大内存池,因此一个箱子就能容纳原本需要一机架 GPU 的模型。
2026 年 3 月,Apple 将 96GB 升级到 256GB 的价格从 $1,600 提高到 $2,000,并因短缺而停产了 512 GB 选项。现在 256 GB 的 M3 Ultra 全部加起来大约 $6,000(美国估算,取决于配置和国家),且据报道供应紧张。
旧的 512 GB 机型曾可以轻松运行更大的近无损量化版本,现在在二手市场上溢价出售。功耗仍然很低,估计 200 到 300W。下面有一个专门的 Mac Studio 操作指南。
第 2 层:GPU 加系统内存卸载构建,约 $4,000 到 $8,000,且比 Mac 慢
“预算”路线(1 块 24 GB GPU 加 256 GB 内存,通过 llama.cpp 的 MoE 卸载)也被同样的短缺所破坏。一套 256 GB DDR5 内存套件的价格已经涨到了接近高端 GPU 的价格,而 RTX 5090(建议零售价 $1,999)的销售价格远高于官方定价。这两个数字都是波动的现货市场价格,因此在预算前请检查当前零售价。
加上 CPU、主板、电源、存储,你会达到 $4,000 到 $8,000,得到的机器比 Mac 慢。二手 RTX 3090(24 GB)配置更便宜,但即使是二手卡价格也偏高。
第 3 层:正确运行(FP8,全速,长上下文),购买需 $250,000 以上
我特么才不会正确运行它哈哈。
参考配置:8 块 H200 级 GPU(每块 141 GB,每块约 $30k 到 $40k),仅显卡就需要约 $250,000 到 $320,000,加上机箱、网络和电源则超过 $300k。这是数据中心级别的采购,不是家庭构建,并且每年带来四位数的电力和冷却费用。
但你总可以按需租用它!
不同选项的价格表:
能在 Mac Studio 上运行吗?能
Mac Studio 是目前最适合 GLM-5.2 的消费级机器,正是因为统一内存让一个箱子能容纳原本需要多个 GPU 的模型。
在你能买到的 256 GB Studio 上,1 位量化可轻松运行,2 位则比较紧张(macOS 需要一部分内存,你还需要为 KV/上下文缓存留出空间)。预计约 3 到 9 个 token 每秒:适合“一发就忘”的代理编码,但对话体验会令人沮丧。
步骤 1. 安装 LM Studio(最简单,图形界面,一键下载,内置 OpenAI 兼容服务器)或 llama.cpp(更多控制,Mac 上 Metal 自动)。
步骤 2. 下载 unsloth/GLM-5.2-GGUF 并选择 1 位(安全)或 2 位(紧张)的量化版本。CLI:
步骤 3. 提高 macOS GPU 有线内存限制,以便模型能占用大部分内存池,例如:
(约 240 GB。根据你的配置调整,给系统留出约 16 GB。)
警告:高级,仅限 Mac 的调整。 这会改变 GPU 有线内存的行为,如果设置过于激进可能会使系统不稳定。只有在你理解这种权衡时才使用它,给操作系统留足空间,并准备好如果在重启后出现任何问题就恢复设置。
步骤 4. 提供服务。在 LM Studio 中加载模型并启动本地服务器。或者使用 llama.cpp:
(使用 KV 缓存量化来扩展上下文。)
步骤 5. 将你的代理工具指向它。设置 base_url 为 http://localhost:8080/v1(或 LM Studio 的端口),在 Claude Code(通过 OpenAI 桥接)、Cline 或 Aider 中将模型设为你的别名,即可实现完全离线的编码循环。
提示与优化(模型特定)
把它当作代理,而不是聊天机器人。 GLM-5.2 经过后期训练,适用于目标驱动、工具使用、长期执行。给它一个明确的目标、相关上下文、成功标准和约束条件。跳过对话式的来回交流。
努力级别切换。 对于困难或重要的编码任务使用 Max 努力级别(更深入的推理,更稳定的多步执行)。对于简单或快速的工作使用 High。作为粗略的启发(而非精确度量),High 大约将输出 token 减半,而能力损失只有几个百分点,因此它是一个真正的成本和延迟杠杆。在 Claude Code 中使用 /effort。通过 API 设置 reasoning_effort(“high”,或取消设置/任何其他值表示 Max),并设置 enable_thinking=false 以获得便宜快速的补全。
为 100 万窗口加载上下文。 一次性加载所有相关文件、规范、测试,而不是分块。将稳定内容(系统提示、工具定义、仓库映射、未更改文件)放在前面,以便应用提示缓存(缓存前缀约 81% 折扣),并将变量请求放在末尾。
一个重要注意事项:在 80 万以上 token 时,长上下文检索质量尚未经过独立验证。将 100 万视为上限而非保证,并在你自己的仓库上测试。
最佳提示结构。 一句话描述任务,加上上下文(文件、环境、先前决定),加上明确成功标准,加上约束条件(库、风格、不要更改什么)。将其与你的工具中的自主运行或计划模式功能结合,用于长时间的代理会话。
集成技巧。 MCP 服务器(通过 GLM-4.6V 的视觉 MCP,网络搜索/阅读器 MCP)通过 Coding Plan 工作,并在 Claude Code 和 Cline 内使用。
注意一个已知故障模式:在长时间代理循环中,Anthropic 桥接偶尔会丢失嵌套工具结果内容。症状是模型重复调用工具。
相似文章
GLM-5.2 是本地人工智能的一次胜利
GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。
@startupideaspod: https://x.com/startupideaspod/status/2069494373604282771
GLM 5.2 是一个开源AI模型,拥有100万token的上下文窗口和强大的基准性能,略逊于Opus 4.8。本集提供了使用Cursor和Codex等工具进行本地或云端部署的实用指南,并强调通过串联模型来实现成本效益。
如果你还没用,快切换到GLM-5.2
Z.ai 发布了 GLM-5.2,其性能与上一代 GPT/Opus 相当,但成本仅为其一小部分,非常适合家庭自动化和编程设置。
GLM-5.2 现已可在 HuggingChat 上使用
GLM-5.2 是 zai-org 的一个开源 AI 模型,现已在 HuggingChat 上可用。
GLM-5.2: 专为长程任务打造
Z.AI推出GLM-5.2,这是一款专为长程任务设计的旗舰模型,拥有稳定的100万token上下文、改进的编码能力以及MIT开源许可证,在与Opus 4.8和GPT-5.5等领先模型的对比中展现了竞争力。