GLM 5.2 在 4 个 Sparks 上运行是否合理?

Reddit r/LocalLLaMA 新闻

摘要

用户询问在四个 Ascend GX10 或 DGX Sparks 上以 4 位量化运行 GLM-5.2 的可行性,想知道在 100k 上下文下的速度和内存情况。

GLM-5.2 显然是一个非常优秀的模型,我想知道它在四个 Ascend GX10 / DGX Sparks 上的运行速度如何。网上完全找不到相关数据。难道不能在 4*128=512GB 的统一内存上运行 4 位量化吗?例如在 100k 上下文下,提示处理和输出 token/秒会是多少?
查看原文

相似文章

GLM 5.2 在 Mac Studio 上的提速 PR

Reddit r/LocalLLaMA

GLM 5.2 在配备 512GB RAM 的 Mac Studio 上带来了重大性能提升,在高上下文长度下实现超过 100 t/s 的预填充速度,并支持超过 10 万 token 上下文的 4 位量化,详细信息见 oMLX 创建者的拉取请求。