@tolak_eth: 我想分享一下我们是如何避免每年花费约16万美元来托管拥有完整1M上下文的GLM-5.2。当GLM-5.2推出时……
摘要
Phala通过将MoE专家量化至4位并保留关键部分为FP8/BF16,在单个8×H200节点上实现了与FP8基线相同的基准测试结果,从而避免了每年16万美元的GLM-5.2完整1M上下文托管成本,并在Hugging Face上发布了优化后的模型GLM-5.2-W4AFP8。
查看缓存全文
缓存时间: 2026/07/03 18:40
我想分享一下我们如何避免每年花费大约16万美元来托管完整1M上下文的GLM-5.2。
当GLM-5.2发布时,Phala是http://Z.ai的发布合作伙伴之一。我们尝试立即在现有的8×H200配置上运行它。这个模型令人兴奋,但部署现实并不那么美好:我们无法在该节点上完全打开1M上下文窗口。明显的路径是迁移到更昂贵的配置,很可能是Blackwell级别的硬件。这是一个不小的成本决策。
这正是开源的力量所在。团队没有将模型视为固定的工件,而是开始考虑是否能让内存预算奏效。他们将路由MoE专家量化为4-bit,将重要部分保留为FP8/BF16,并仔细验证了结果。结果是GLM-5.2-W4AFP8:在单个8×H200节点上实现完整1M上下文,基准测试结果与FP8基线一致。
截至今天,Hugging Face上的GLM-5.2-W4AFP8已有接近2万次下载。我认为这很能说明问题。开发者不仅想要更大的上下文窗口,他们还希望模型在运行时实用,而不必让每次部署都变成硬件采购问题。
这让我想起了《黑客与画家》:开源的美妙之处在于用户不必停留在“这就是发布的内容”。他们可以重塑工具,直到它适应现实世界。
下载:https://huggingface.co/PhalaCloud/GLM-5.2-W4AFP8…
相似文章
@0x_kaize: https://x.com/0x_kaize/status/2068775813785506091
关于在使用 GLM 5.2 模型时避免速率限制和降低成本的指南,涵盖提示批处理、缓存、免费模型替代方案、努力水平、上下文窗口管理和自托管。
@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了优化版的 GLM-5.2,这是一个拥有 753B 参数和 1M 上下文的 MoE 模型,针对 Blackwell GPU 量化至 NVFP4……
NVIDIA 在 Hugging Face 上发布了优化版 GLM-5.2 MoE 模型,拥有 753B 参数和 1M 上下文,针对 Blackwell GPU 量化至 NVFP4,精度几乎与 FP8 持平。
在仅有CPU的情况下本地运行GLM-5.2!(穷人的大型模型方案)
一位用户仅用CPU在本地运行GLM-5.2,演示如何在简陋的配置上运行大型模型。
@AdinaYakup: GLM 5.2 来了 753B (比你想象的要小?) 1M上下文 MIT许可证 GLM IndexShare: 跨层复用索引器…
GLM 5.2 作为一款753B参数的开源模型发布,拥有1M上下文长度,MIT许可证,在AIME 2026上达到99.2分,超越了GPT-5.5、Gemini 3.1 Pro和Claude Opus 4.8。
在本地运行GLM 5.x的最便宜方式(不使用统一内存系统)?
关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论,包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。