@tolak_eth: 我想分享一下我们是如何避免每年花费约16万美元来托管拥有完整1M上下文的GLM-5.2。当GLM-5.2推出时……

X AI KOLs Timeline 2026/07/03 02:08 新闻

glm-5.2 quantization open-source moe deployment cost-savings huggingface

摘要

Phala通过将MoE专家量化至4位并保留关键部分为FP8/BF16，在单个8×H200节点上实现了与FP8基线相同的基准测试结果，从而避免了每年16万美元的GLM-5.2完整1M上下文托管成本，并在Hugging Face上发布了优化后的模型GLM-5.2-W4AFP8。

我想分享一下我们是如何避免每年花费约16万美元来托管拥有完整1M上下文的GLM-5.2。当GLM-5.2推出时，Phala是http://Z.ai的启动合作伙伴之一。我们试图立即在我们现有的8×H200配置上运行它。这个模型令人兴奋，但部署的现实却不那么浪漫：我们无法在那个节点上完全打开1M上下文窗口。显而易见的方案是迁移到更昂贵的配置，很可能是Blackwell级别的硬件。这可不是一个小成本决策。这正是开源强大之处。团队没有将模型视为固定不变的制品，而是开始思考我们能否在内存预算上找到出路。他们将路由MoE专家量化至4位，保留关键部分为FP8/BF16，并仔细验证了结果。最终成果是GLM-5.2-W4AFP8：在单个8×H200节点上实现完整1M上下文，且基准测试结果与FP8基线一致。截至目前，Hugging Face上的GLM-5.2-W4AFP8下载量已接近2万次。我认为这说明了问题。开发者不仅想要更大的上下文窗口，他们还希望模型能够实用地运行，而不必将每次部署都变成硬件采购难题。这让我想起了《黑客与画家》：开源之美在于用户不必止步于“这就是发布的内容”。他们可以重塑工具，直到它适应现实世界。下载链接：https://huggingface.co/PhalaCloud/GLM-5.2-W4AFP8…

查看原文

查看缓存全文

缓存时间: 2026/07/03 18:40

我想分享一下我们如何避免每年花费大约16万美元来托管完整1M上下文的GLM-5.2。

当GLM-5.2发布时，Phala是http://Z.ai的发布合作伙伴之一。我们尝试立即在现有的8×H200配置上运行它。这个模型令人兴奋，但部署现实并不那么美好：我们无法在该节点上完全打开1M上下文窗口。明显的路径是迁移到更昂贵的配置，很可能是Blackwell级别的硬件。这是一个不小的成本决策。

这正是开源的力量所在。团队没有将模型视为固定的工件，而是开始考虑是否能让内存预算奏效。他们将路由MoE专家量化为4-bit，将重要部分保留为FP8/BF16，并仔细验证了结果。结果是GLM-5.2-W4AFP8：在单个8×H200节点上实现完整1M上下文，基准测试结果与FP8基线一致。

截至今天，Hugging Face上的GLM-5.2-W4AFP8已有接近2万次下载。我认为这很能说明问题。开发者不仅想要更大的上下文窗口，他们还希望模型在运行时实用，而不必让每次部署都变成硬件采购问题。

这让我想起了《黑客与画家》：开源的美妙之处在于用户不必停留在“这就是发布的内容”。他们可以重塑工具，直到它适应现实世界。

下载：https://huggingface.co/PhalaCloud/GLM-5.2-W4AFP8…

@tolak_eth: 我想分享一下我们是如何避免每年花费约16万美元来托管拥有完整1M上下文的GLM-5.2。当GLM-5.2推出时……

相似文章

@0x_kaize: https://x.com/0x_kaize/status/2068775813785506091

@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了优化版的 GLM-5.2，这是一个拥有 753B 参数和 1M 上下文的 MoE 模型，针对 Blackwell GPU 量化至 NVFP4……

在仅有CPU的情况下本地运行GLM-5.2！（穷人的大型模型方案）

@AdinaYakup: GLM 5.2 来了 753B (比你想象的要小？) 1M上下文 MIT许可证 GLM IndexShare: 跨层复用索引器…

在本地运行GLM 5.x的最便宜方式（不使用统一内存系统）？

提交意见反馈