rtx-pro

#rtx-pro

@0xSero：GLM-5.1-478B-NVFP4 跑在：4×RTX Pro 6000、SGLang，最大 37 万 token（1.75× 满上下文），p10 27.7 | p90 45…

X AI KOLs Timeline ↗ · 2026-04-21 缓存

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

0 人收藏 0 人点赞

#rtx-pro

X AI KOLs Timeline ↗ · 2026-04-19

一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置，包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000，以及用于模型移植与压力测试的配备 96GB 的 M3 Max。

0 人收藏 0 人点赞