GLM 5.2 在 4 个 Sparks 上运行是否合理?
摘要
用户询问在四个 Ascend GX10 或 DGX Sparks 上以 4 位量化运行 GLM-5.2 的可行性,想知道在 100k 上下文下的速度和内存情况。
GLM-5.2 显然是一个非常优秀的模型,我想知道它在四个 Ascend GX10 / DGX Sparks 上的运行速度如何。网上完全找不到相关数据。难道不能在 4*128=512GB 的统一内存上运行 4 位量化吗?例如在 100k 上下文下,提示处理和输出 token/秒会是多少?
相似文章
@TheAhmadOsman: Luke Alonso 已上传了一个 NVFP4 量化版本的 GLM 5.2,大小为 467GB,可适配 4 块 DGX Sparks(约 2 万美元)
Luke Alonso 上传了一个 NVFP4 量化版本的 GLM 5.2(467GB),可适配 4 块 DGX Sparks 硬件,成本约 2 万美元。
以合理量化运行GLM2的方案构想,求批评与反馈
一位用户提出使用四块RTX 5060 Ti GPU和512GB DDR3服务器内存的硬件配置,以合理的量化方式运行GLM2,并就此方案的可行性寻求反馈。
@Ex0byt: 更新:通往GLM-5.2之路:我们快到了,各位!未量化、未剪枝的DeepSeek-v4-Flash。单台……上11 tok/s
关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新,正在向GLM-5.2迈进。
在本地运行GLM 5.x的最便宜方式(不使用统一内存系统)?
关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论,包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。
GLM 5.2 在 Mac Studio 上的提速 PR
GLM 5.2 在配备 512GB RAM 的 Mac Studio 上带来了重大性能提升,在高上下文长度下实现超过 100 t/s 的预填充速度,并支持超过 10 万 token 上下文的 4 位量化,详细信息见 oMLX 创建者的拉取请求。