40+ token/秒 - 在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案

Reddit r/LocalLLaMA 工具

摘要

用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案,实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。

大家好,两天前我在单台 DGX Spark 上对我为 Qwen 3.5 122B 设计的方案进行了 Spark Arena 测试,在所有上下文字段长度和并发数的 3.5 122B Int4 方案中,我获得了速度最高分。想与大家分享,如果有人想试试、玩玩并进一步优化,可以查看以下链接:[https://spark-arena.com/benchmark/sub1779146508448](https://spark-arena.com/benchmark/sub1779146508448) https://preview.redd.it/pz2dr3n4fb2h1.png?width=1099&format=png&auto=webp&s=40f078ae3df597545d08ed3df008f84873acca6a
查看原文

相似文章

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。