GLM 5.2 在 4 个 Sparks 上运行是否合理？

Reddit r/LocalLLaMA 2026/06/17 12:33 新闻

glm ascend dgx-spark inference performance quantization

摘要

用户询问在四个 Ascend GX10 或 DGX Sparks 上以 4 位量化运行 GLM-5.2 的可行性，想知道在 100k 上下文下的速度和内存情况。

GLM-5.2 显然是一个非常优秀的模型，我想知道它在四个 Ascend GX10 / DGX Sparks 上的运行速度如何。网上完全找不到相关数据。难道不能在 4*128=512GB 的统一内存上运行 4 位量化吗？例如在 100k 上下文下，提示处理和输出 token/秒会是多少？

查看原文

相似文章

X AI KOLs Following

Luke Alonso 上传了一个 NVFP4 量化版本的 GLM 5.2（467GB），可适配 4 块 DGX Sparks 硬件，成本约 2 万美元。

Reddit r/LocalLLaMA

一位用户提出使用四块RTX 5060 Ti GPU和512GB DDR3服务器内存的硬件配置，以合理的量化方式运行GLM2，并就此方案的可行性寻求反馈。

X AI KOLs Timeline

关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新，正在向GLM-5.2迈进。

Reddit r/LocalLLaMA

关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论，包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。

Reddit r/LocalLLaMA

GLM 5.2 在配备 512GB RAM 的 Mac Studio 上带来了重大性能提升，在高上下文长度下实现超过 100 t/s 的预填充速度，并支持超过 10 万 token 上下文的 4 位量化，详细信息见 oMLX 创建者的拉取请求。