@TheAhmadOsman: Luke Alonso 已上传了一个 NVFP4 量化版本的 GLM 5.2,大小为 467GB,可适配 4 块 DGX Sparks(约 2 万美元)
摘要
Luke Alonso 上传了一个 NVFP4 量化版本的 GLM 5.2(467GB),可适配 4 块 DGX Sparks 硬件,成本约 2 万美元。
查看缓存全文
缓存时间: 2026/06/20 22:24
Luke Alonso 上传了 GLM 5.2 的 NVFP4 版本
467GB,可装进 4 块 DGX Sparks(约 2 万美元)https://t.co/8wP1uUypLC
相似文章
GLM 5.2 在 4 个 Sparks 上运行是否合理?
用户询问在四个 Ascend GX10 或 DGX Sparks 上以 4 位量化运行 GLM-5.2 的可行性,想知道在 100k 上下文下的速度和内存情况。
@jun_song: 最佳中端本地LLM硬件:DGX Spark 对比 Mac Studio M5 Max 128GB(即将推出)价格:4700美元(二手或OEM更便宜)…
DGX Spark与Mac Studio M5 Max在本地运行LLM的对比,重点比较了解码速度、预填充性能、内存、功耗和成本。Mac在解码带宽上胜出,但DGX在预填充方面更快并支持批处理。
@onusoz: 16路并行 Gemma-4-26B-A4B-NVFP4 运行,每路18输出 token/s,合计300 tok/s 一台配备128GB统一内存的DGX Spark…
@onusoz 展示了在单一 DGX Spark(128GB统一内存)上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型,合计达到300 tok/s,展示高并发能力且未使用 flashinfer。
@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…
一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。
@mr_r0b0t:官方 @NVIDIAAI GLM5.1-NVFP4 在 @huggingface 上被发现
NVIDIA 发布了 GLM-5.1-NVFP4,这是 ZAI 的 GLM-5.1 模型的量化版本,总参数 754B(激活参数 40B),在 Hugging Face 上以 MIT 许可证提供。