@0x_kaize: https://x.com/0x_kaize/status/2068775813785506091

X AI KOLs Timeline 2026/06/21 19:19 工具

glm-5-2 limits coding-plan api caching free-models self-hosting optimization prompt-engineering

摘要

关于在使用 GLM 5.2 模型时避免速率限制和降低成本的指南，涵盖提示批处理、缓存、免费模型替代方案、努力水平、上下文窗口管理和自托管。

https://t.co/DGNgAP5byn

查看原文

查看缓存全文

缓存时间: 2026/06/22 03:35

如何永不触及GLM 5.2限制

6月13日，GLM 5.2模型发布，它直接与Fable 5竞争，但人们立刻遇到了一个问题：太快触及限制。

但许多用户并不理解一个重要事实：

GLM的编码计划计费的是提示（PROMTS）—— 而不是令牌（TOKENS）！
API计费的是令牌 —— 但人们花费得太快了！

在我改变以下这10件事之前，我也很快就把额度用光了。

1. 为什么会触及限制

首先，你需要明白自己到底在为什么付费。

GLM有两种完全不同的计费方式：

1. 编码计划（订阅） —— 按提示（prompts）计数，而非令牌。

Lite（约$18/月）：每5小时周期约80个提示 Pro：每5小时周期约600个提示 Max/Team：更高

一个大型提示 = 一个小型提示 —— 价格相同。

人们发送50个一句话的问题，浪费了配额，而他们本可以将它们合并成5个结构良好的提示。

2. API（按令牌付费） —— 按令牌计数。

输入： $1.40 / 100万令牌输出：$ 4.40 / 100万令牌缓存输入：$0.26 / 100万令牌

换句话说，如果你使用订阅计划，绝不应该在任何情况下发送无意义的提示——否则你会很快触及限制。

2. 缓存 —— 节省81%的费用

当你反复发送一个很长的稳定前缀——比如系统提示、工具定义、你经常引用的大文件——提供商会对处理后的前缀进行缓存。

下一次调用时，缓存部分按 $0.26/100万令牌计费，而不是$ 1.40/100万令牌：每个提示中重复的部分享受约81%的折扣。

使其生效的规则：

1/ 将重复使用的内容放在提示的开头。 2/ 将可变内容放在末尾（缓存基于前缀生效）。 3/ 缓存会过期——折扣仅适用于时间上接近的调用，而不是每隔一小时一次。

像Claude Code、Cline和Cursor这样的编码代理，每次交互都会重新发送一个巨大的稳定前导部分：指令、工具架构、仓库上下文。

缓存该前导部分能大幅降低每次交互的成本。如果你不缓存，你将按全价反复发送相同的令牌。

3. 免费模型 —— 用于所有不需要5.2版本的任务

大多数任务不需要前沿模式（GLM 5.2）。智谱提供了两个真正免费的模型，无试用限制：

1/ GLM-4.7-Flash：免费，203k上下文，格式化+简单补全。 2/ GLM-4.5-Flash：免费，轻量级通用模型。

在Flash中，最适合处理格式化、重命名、快速语法问题和样板代码片段。

将GLM 5.2用于需要分析方法的任务。

仅此一个习惯就能让你使用“Lite”定价计划的时间延长一倍。

4. 努力级别 —— 停止使用Max

GLM 5.2有两个思考预设：High和Max。

智谱表示Max应是编码的默认设置，但Max每次调用消耗更多配额和更多令牌——而大多数任务并不需要最大推理深度。

High：常规编辑、草稿、简单逻辑。
Max：复杂重构、架构、棘手Bug。

在使用Max时做出正确决策，绝不要用它来修复一行代码——否则你会很快触及限制。

5. 100万上下文陷阱

100万上下文窗口是主打功能，但如果使用不当，它就是一个陷阱。

完整的上下文窗口通过**glm-5.2[1m]**模型后缀加载，但加载大量上下文意味着每次交互都要处理大量输入——即使模型只需要其中的一小部分。

规则：

不要为修复一个文件而加载整个5万行仓库。
仅在任务确实需要时加载100万窗口。

在需要时使用大窗口。

对于其他所有情况，保持上下文精简——模型每次交互都会重新读取你给它的所有内容。

6. 自托管 —— 永远零令牌费用

GLM 5.2采用MIT许可证发布——权重是免费的。

如果你的使用量足够大，并且拥有合适的硬件，你可以自己运行模型，零令牌费用。

这将按量计费转化为固定计算成本：

753B MoE（约40B激活）
100万上下文，MIT权重
在你自己的基础设施上运行 = 无配额，无令牌费

社区已经开始将权重量化为4位和2位变种。

对大多数人来说，现实的方案：

暂时继续使用托管方案，关注单节点配置，然后当你的使用量证明自托管合理时，再重新评估。

对于重度用户来说，这才是真正的“免费GLM 5.2”。

7. 配置 —— 精确设置

通过编码计划将GLM 5.2接入Claude Code：

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

API_TIMEOUT_MS的值很重要。如果没有长的超时时间，Claude Code会在GLM 5.2完成之前杀死大型上下文的调用。

将其设置得高一些，否则你会浪费配额在从未完成的调用上。

注意：

编码计划密钥是与标准API密钥不同的凭据。在支持的工具之外的调用会回退到标准API计费。

8. 批处理你的提示

这是专门针对编码计划用户的最大改进。

记住： 计划按提示计数，而不是令牌。

10个单独的一句话问题花费10个提示。
一个结构化的消息中包含10个问题只花费1个。

不要发送10个提示： “重命名这个变量”“现在修复导入”“在这里添加一个类型”……

发送1个提示： “做所有这些：将X重命名为Y，修复第4行的导入，为函数参数添加类型，并更新测试”……

将相关工作批处理到单个提示中，可以将你的配额使用率提升5-10倍。

如果你使用Lite计划，这一个习惯能改变一切。

9. 压缩长会话

不断增长的聊天历史在每次交互中都会增加账单。

到第40条消息时，模型每次发送内容时都要重新读取数千令牌的上下文：

在API上，这是你反复支付的输入令牌。
在编码计划上，它会侵蚀你的有效吞吐量。

规则：

每30-40条消息压缩或开启新会话。
不要保留一个巨大会话运行一整天。
当切换任务时清空会话。

模型没有理由将上午的上下文带到下午的任务中。

10. 在不需要5.2时降级到GLM-4.7

5.2是旗舰，但4.7在SWE-bench上仍达到73.8%，每次调用成本更低。

GLM 4.7：大多数日常编码、编辑、标准功能。
GLM 5.2：复杂推理、100万上下文任务、棘手Bug。

大多数编码工作并不需要绝对前沿。

将5.2保留给真正需要其推理能力的任务，让4.7处理大部分工作。

通过4.7处理中级工作、Flash处理简单工作，你的5.2完全不再是瓶颈。

实话实说

GLM 5.2并非免费。流传的“免费令牌”说法基本是错误的——唯一真正免费的路径是Flash模型和自托管开放权重。

但是，在一小时内触及限制的人和使用相同计划编码一整天的人之间的差距，不在于计划本身，而在于这10个习惯。

做到这些，这个星球上最便宜的前沿编码模型会变得更便宜。

而最重要的是，花费的不是你的令牌——而是你的提示。

相似文章

在本地运行GLM 5.x的最便宜方式（不使用统一内存系统）？

Reddit r/LocalLLaMA

关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论，包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。

@hooeem: https://x.com/hooeem/status/2068752941553476002

X AI KOLs Timeline

一份全面指南，介绍如何部署 GLM 5.2（一款自称在编程基准测试中超越 GPT-5.5 且成本更低的开源 AI 模型），涵盖云端和本地部署方案。

在仅有CPU的情况下本地运行GLM-5.2！（穷人的大型模型方案）