@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…
摘要
一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。
GLM-5.1-478B-NVFP4 跑在:
- 4×RTX Pro 6000
- SGLang
- 最大 37 万 token(1.75× 满上下文)
- p10 27.7 | p90 45.6 tok/s 解码(生成)
- 1340 tok/s 预填充
如果我把上下文压到 64k,解码能翻倍到 100 tok/s
视频里它正在操作 Figma(:
查看缓存全文
缓存时间: 2026/04/21 16:24
GLM-5.1-478B-NVFP4 运行环境:
- 4× RTX Pro 6000
- Sglang
- 最大 370,000 tokens(1.75× 满上下文)
- 解码速度:p10 27.7 | p90 45.6 tok/s(生成)
- 预填充速度:1340 tok/s
如果把上下文限制在 64 k,解码速度可以翻倍(100 tok/s)。
视频里它正在操作 Figma(:
相似文章
@0xSero:终于搞定 GLM-5.1-505B-REAP-NVFP4,解码 45 tokens/s,预填充 1350 tokens/s,剪枝 32%,这是我跑通过最费劲的一次…
开发者 @0xSero 在优化版 GLM-5.1-505B 上通过 NVFP4 量化与 32% 剪枝实现高吞吐推理,解码速度 45 tokens/s,预填充速度 1350 tokens/s。
消费级硬件上的 GLM 5.2
一位用户在配备双 RTX 5090 的高端类消费级系统上测试了 unsloth 量化版 GLM-5.2 模型,达到了每秒 12 个 token。
GLM5.2 @7tg 在预算主板+CPU上使用4x3090+192GB
在预算配置下,使用4块RTX 3090 GPU和192GB内存运行GLM5.2,处理7万亿tokens。
@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……
Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。
48GB 显存实现 500k 上下文!!- 21 tok/s (编码)
一位用户报告成功部署了量化版 Nemotron-3 Super 模型,该模型支持 500k 上下文和代理编码,运行在消费级双 Titan RTX 硬件上。