int4

标签

Cards List
#int4

40+ token/秒 - 在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案

Reddit r/LocalLLaMA · 2026-05-20

用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案,实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。

0 人收藏 0 人点赞
#int4

Qwen3.6-27B 各量化格式 KLD 对比:INT 与 NVFP

Reddit r/LocalLLaMA · 2026-04-22

Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本(INT4、NVFP4、BF16-INT4),展示不同场景下内存占用与精度的权衡。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈