@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…

X AI KOLs Timeline 模型

摘要

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。

GLM-5.1-478B-NVFP4 跑在: - 4×RTX Pro 6000 - SGLang - 最大 37 万 token(1.75× 满上下文) - p10 27.7 | p90 45.6 tok/s 解码(生成) - 1340 tok/s 预填充 如果我把上下文压到 64k,解码能翻倍到 100 tok/s 视频里它正在操作 Figma(:
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 16:24

GLM-5.1-478B-NVFP4 运行环境:

  • 4× RTX Pro 6000
  • Sglang
  • 最大 370,000 tokens(1.75× 满上下文)
  • 解码速度:p10 27.7 | p90 45.6 tok/s(生成)
  • 预填充速度:1340 tok/s

如果把上下文限制在 64 k,解码速度可以翻倍(100 tok/s)。
视频里它正在操作 Figma(:

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。