@tolak_eth: 我想分享一下我们是如何避免每年花费约16万美元来托管拥有完整1M上下文的GLM-5.2。当GLM-5.2推出时……

X AI KOLs Timeline 新闻

摘要

Phala通过将MoE专家量化至4位并保留关键部分为FP8/BF16,在单个8×H200节点上实现了与FP8基线相同的基准测试结果,从而避免了每年16万美元的GLM-5.2完整1M上下文托管成本,并在Hugging Face上发布了优化后的模型GLM-5.2-W4AFP8。

我想分享一下我们是如何避免每年花费约16万美元来托管拥有完整1M上下文的GLM-5.2。 当GLM-5.2推出时,Phala是http://Z.ai的启动合作伙伴之一。我们试图立即在我们现有的8×H200配置上运行它。这个模型令人兴奋,但部署的现实却不那么浪漫:我们无法在那个节点上完全打开1M上下文窗口。显而易见的方案是迁移到更昂贵的配置,很可能是Blackwell级别的硬件。这可不是一个小成本决策。 这正是开源强大之处。团队没有将模型视为固定不变的制品,而是开始思考我们能否在内存预算上找到出路。他们将路由MoE专家量化至4位,保留关键部分为FP8/BF16,并仔细验证了结果。最终成果是GLM-5.2-W4AFP8:在单个8×H200节点上实现完整1M上下文,且基准测试结果与FP8基线一致。 截至目前,Hugging Face上的GLM-5.2-W4AFP8下载量已接近2万次。我认为这说明了问题。开发者不仅想要更大的上下文窗口,他们还希望模型能够实用地运行,而不必将每次部署都变成硬件采购难题。 这让我想起了《黑客与画家》:开源之美在于用户不必止步于“这就是发布的内容”。他们可以重塑工具,直到它适应现实世界。 下载链接:https://huggingface.co/PhalaCloud/GLM-5.2-W4AFP8…
查看原文
查看缓存全文

缓存时间: 2026/07/03 18:40

我想分享一下我们如何避免每年花费大约16万美元来托管完整1M上下文的GLM-5.2。

当GLM-5.2发布时,Phala是http://Z.ai的发布合作伙伴之一。我们尝试立即在现有的8×H200配置上运行它。这个模型令人兴奋,但部署现实并不那么美好:我们无法在该节点上完全打开1M上下文窗口。明显的路径是迁移到更昂贵的配置,很可能是Blackwell级别的硬件。这是一个不小的成本决策。

这正是开源的力量所在。团队没有将模型视为固定的工件,而是开始考虑是否能让内存预算奏效。他们将路由MoE专家量化为4-bit,将重要部分保留为FP8/BF16,并仔细验证了结果。结果是GLM-5.2-W4AFP8:在单个8×H200节点上实现完整1M上下文,基准测试结果与FP8基线一致。

截至今天,Hugging Face上的GLM-5.2-W4AFP8已有接近2万次下载。我认为这很能说明问题。开发者不仅想要更大的上下文窗口,他们还希望模型在运行时实用,而不必让每次部署都变成硬件采购问题。

这让我想起了《黑客与画家》:开源的美妙之处在于用户不必停留在“这就是发布的内容”。他们可以重塑工具,直到它适应现实世界。

下载:https://huggingface.co/PhalaCloud/GLM-5.2-W4AFP8…

相似文章