@TheAhmadOsman: Luke Alonso 已上传了一个 NVFP4 量化版本的 GLM 5.2，大小为 467GB，可适配 4 块 DGX Sparks（约 2 万美元）

X AI KOLs Following 2026/06/20 21:00 模型

model-release quantization nvfp4 glm dgx-sparks open-source large-language-model

摘要

Luke Alonso 上传了一个 NVFP4 量化版本的 GLM 5.2（467GB），可适配 4 块 DGX Sparks 硬件，成本约 2 万美元。

Luke Alonso 已上传了一个 NVFP4 量化版本的 GLM 5.2 大小 467GB，可适配 4 块 DGX Sparks（约 2 万美元）https://t.co/8wP1uUypLC

查看原文

查看缓存全文

缓存时间: 2026/06/20 22:24

Luke Alonso 上传了 GLM 5.2 的 NVFP4 版本

467GB，可装进 4 块 DGX Sparks（约 2 万美元）https://t.co/8wP1uUypLC

相似文章

Reddit r/LocalLLaMA

用户询问在四个 Ascend GX10 或 DGX Sparks 上以 4 位量化运行 GLM-5.2 的可行性，想知道在 100k 上下文下的速度和内存情况。

X AI KOLs Following

DGX Spark与Mac Studio M5 Max在本地运行LLM的对比，重点比较了解码速度、预填充性能、内存、功耗和成本。Mac在解码带宽上胜出，但DGX在预填充方面更快并支持批处理。

X AI KOLs Timeline

@onusoz 展示了在单一 DGX Spark（128GB统一内存）上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型，合计达到300 tok/s，展示高并发能力且未使用 flashinfer。

X AI KOLs Timeline

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

X AI KOLs Timeline

NVIDIA 发布了 GLM-5.1-NVFP4，这是 ZAI 的 GLM-5.1 模型的量化版本，总参数 754B（激活参数 40B），在 Hugging Face 上以 MIT 许可证提供。