nvfp4

标签

Cards List
#nvfp4

@0xSero: 刚刚添加了两种新的模型压缩版本:Hy3-FP8 和 NVFP4。我推荐尝试这个模型,它非常强大且可以完整地在 256GB 显存上运行……

X AI KOLs Following · 10小时前 缓存

0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本,使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。

0 人收藏 0 人点赞
#nvfp4

Qwen3.6-27B 各量化格式 KLD 对比:INT 与 NVFP

Reddit r/LocalLLaMA · 2026-04-22

Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本(INT4、NVFP4、BF16-INT4),展示不同场景下内存占用与精度的权衡。

0 人收藏 0 人点赞
#nvfp4

@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…

X AI KOLs Timeline · 2026-04-21 缓存

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。

0 人收藏 0 人点赞
#nvfp4

@0xSero:终于搞定 GLM-5.1-505B-REAP-NVFP4,解码 45 tokens/s,预填充 1350 tokens/s,剪枝 32%,这是我跑通过最费劲的一次…

X AI KOLs Timeline · 2026-04-20 缓存

开发者 @0xSero 在优化版 GLM-5.1-505B 上通过 NVFP4 量化与 32% 剪枝实现高吞吐推理,解码速度 45 tokens/s,预填充速度 1350 tokens/s。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈