int4

#int4

40+ token/秒 - 在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案

Reddit r/LocalLLaMA ↗ · 2026-05-20

用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案，实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。

0 人收藏 0 人点赞

#int4

Reddit r/LocalLLaMA ↗ · 2026-04-22

Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本（INT4、NVFP4、BF16-INT4），展示不同场景下内存占用与精度的权衡。

0 人收藏 0 人点赞