40+ token/秒 - 在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案

Reddit r/LocalLLaMA 2026/05/20 16:03 工具

optimization inference speed qwen-3.5 vllm dgx-spark int4

摘要

用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案，实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。

大家好，两天前我在单台 DGX Spark 上对我为 Qwen 3.5 122B 设计的方案进行了 Spark Arena 测试，在所有上下文字段长度和并发数的 3.5 122B Int4 方案中，我获得了速度最高分。想与大家分享，如果有人想试试、玩玩并进一步优化，可以查看以下链接：[https://spark-arena.com/benchmark/sub1779146508448](https://spark-arena.com/benchmark/sub1779146508448) https://preview.redd.it/pz2dr3n4fb2h1.png?width=1099&format=png&auto=webp&s=40f078ae3df597545d08ed3df008f84873acca6a

查看原文

40+ token/秒 - 在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案

相似文章

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s，性价比惊人

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Qwen-3.6-27B + llamacpp 投机解码效果惊艳

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

提交意见反馈