标签
用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案,实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。
Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本(INT4、NVFP4、BF16-INT4),展示不同场景下内存占用与精度的权衡。