40+ token/秒 - 在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案
摘要
用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案,实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。
大家好,两天前我在单台 DGX Spark 上对我为 Qwen 3.5 122B 设计的方案进行了 Spark Arena 测试,在所有上下文字段长度和并发数的 3.5 122B Int4 方案中,我获得了速度最高分。想与大家分享,如果有人想试试、玩玩并进一步优化,可以查看以下链接:[https://spark-arena.com/benchmark/sub1779146508448](https://spark-arena.com/benchmark/sub1779146508448) https://preview.redd.it/pz2dr3n4fb2h1.png?width=1099&format=png&auto=webp&s=40f078ae3df597545d08ed3df008f84873acca6a
相似文章
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s,性价比惊人
有用户报告称,在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token,强调性价比出色,并想知道进一步优化是否能达到150 tok/s。
Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s
使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。
Qwen-3.6-27B + llamacpp 投机解码效果惊艳
Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s,并分享了完整的命令参数和硬件配置。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。