@0xSero：GLM-5.1-478B-NVFP4 跑在：4×RTX Pro 6000、SGLang，最大 37 万 token（1.75× 满上下文），p10 27.7 | p90 45…

X AI KOLs Timeline 2026/04/21 12:25 模型

摘要

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

GLM-5.1-478B-NVFP4 跑在： - 4×RTX Pro 6000 - SGLang - 最大 37 万 token（1.75× 满上下文） - p10 27.7 | p90 45.6 tok/s 解码（生成） - 1340 tok/s 预填充如果我把上下文压到 64k，解码能翻倍到 100 tok/s 视频里它正在操作 Figma（：

查看原文

查看缓存全文

缓存时间: 2026/04/21 16:24

GLM-5.1-478B-NVFP4 运行环境：

4× RTX Pro 6000
Sglang
最大 370,000 tokens（1.75× 满上下文）
解码速度：p10 27.7 | p90 45.6 tok/s（生成）
预填充速度：1340 tok/s

如果把上下文限制在 64 k，解码速度可以翻倍（100 tok/s）。
视频里它正在操作 Figma（：

相似文章

@0xSero：终于搞定 GLM-5.1-505B-REAP-NVFP4，解码 45 tokens/s，预填充 1350 tokens/s，剪枝 32%，这是我跑通过最费劲的一次…

X AI KOLs Timeline

开发者 @0xSero 在优化版 GLM-5.1-505B 上通过 NVFP4 量化与 32% 剪枝实现高吞吐推理，解码速度 45 tokens/s，预填充速度 1350 tokens/s。

消费级硬件上的 GLM 5.2

Reddit r/LocalLLaMA

一位用户在配备双 RTX 5090 的高端类消费级系统上测试了 unsloth 量化版 GLM-5.2 模型，达到了每秒 12 个 token。

GLM5.2 @7tg 在预算主板+CPU上使用4x3090+192GB

Reddit r/LocalLLaMA

在预算配置下，使用4块RTX 3090 GPU和192GB内存运行GLM5.2，处理7万亿tokens。

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

X AI KOLs Timeline

Gemma 4 26B 在 RTX 4060 上运行，通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度，从而在消费级硬件上本地处理整个代码库。

48GB 显存实现 500k 上下文！！- 21 tok/s (编码)

Reddit r/LocalLLaMA

一位用户报告成功部署了量化版 Nemotron-3 Super 模型，该模型支持 500k 上下文和代理编码，运行在消费级双 Titan RTX 硬件上。

相似文章

@0xSero：终于搞定 GLM-5.1-505B-REAP-NVFP4，解码 45 tokens/s，预填充 1350 tokens/s，剪枝 32%，这是我跑通过最费劲的一次…

消费级硬件上的 GLM 5.2

GLM5.2 @7tg 在预算主板+CPU上使用4x3090+192GB

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

48GB 显存实现 500k 上下文！！- 21 tok/s (编码)

提交意见反馈