@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…

X AI KOLs Timeline 模型

摘要

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。

GLM-5.1-478B-NVFP4 跑在: - 4×RTX Pro 6000 - SGLang - 最大 37 万 token(1.75× 满上下文) - p10 27.7 | p90 45.6 tok/s 解码(生成) - 1340 tok/s 预填充 如果我把上下文压到 64k,解码能翻倍到 100 tok/s 视频里它正在操作 Figma(:
查看原文
查看缓存全文

缓存时间: 2026/04/21 16:24

GLM-5.1-478B-NVFP4 运行环境:

  • 4× RTX Pro 6000
  • Sglang
  • 最大 370,000 tokens(1.75× 满上下文)
  • 解码速度:p10 27.7 | p90 45.6 tok/s(生成)
  • 预填充速度:1340 tok/s

如果把上下文限制在 64 k,解码速度可以翻倍(100 tok/s)。
视频里它正在操作 Figma(:

相似文章

消费级硬件上的 GLM 5.2

Reddit r/LocalLLaMA

一位用户在配备双 RTX 5090 的高端类消费级系统上测试了 unsloth 量化版 GLM-5.2 模型,达到了每秒 12 个 token。