@0xSero：GLM-5.1-478B-NVFP4 跑在：4×RTX Pro 6000、SGLang，最大 37 万 token（1.75× 满上下文），p10 27.7 | p90 45…

X AI KOLs Timeline 2026/04/21 12:25 模型

摘要

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

GLM-5.1-478B-NVFP4 跑在： - 4×RTX Pro 6000 - SGLang - 最大 37 万 token（1.75× 满上下文） - p10 27.7 | p90 45.6 tok/s 解码（生成） - 1340 tok/s 预填充如果我把上下文压到 64k，解码能翻倍到 100 tok/s 视频里它正在操作 Figma（：

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 16:24

GLM-5.1-478B-NVFP4 运行环境：

4× RTX Pro 6000
Sglang
最大 370,000 tokens（1.75× 满上下文）
解码速度：p10 27.7 | p90 45.6 tok/s（生成）
预填充速度：1340 tok/s

如果把上下文限制在 64 k，解码速度可以翻倍（100 tok/s）。
视频里它正在操作 Figma（：

相似文章

@0xSero：终于搞定 GLM-5.1-505B-REAP-NVFP4，解码 45 tokens/s，预填充 1350 tokens/s，剪枝 32%，这是我跑通过最费劲的一次…

X AI KOLs Timeline

开发者 @0xSero 在优化版 GLM-5.1-505B 上通过 NVFP4 量化与 32% 剪枝实现高吞吐推理，解码速度 45 tokens/s，预填充速度 1350 tokens/s。

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示，使用 vLLM 搭配 DFlash 投机解码，在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s，相比基线实现了 2.56 倍的加速。

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

X AI KOLs Timeline

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

X AI KOLs Timeline

全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF，仅用一半显存即可在消费级 GPU 上运行，性能超越 35B MoE 模型。

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

X AI KOLs Timeline

一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理，通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。

相似文章

@0xSero：终于搞定 GLM-5.1-505B-REAP-NVFP4，解码 45 tokens/s，预填充 1350 tokens/s，剪枝 32%，这是我跑通过最费劲的一次…

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

提交意见反馈