标签
在 RTX 5090 上对 DFlash 推测解码结合 KV 缓存压缩进行的基准测试显示,针对 Qwen3.6-27B 模型最高可实现 3.26 倍加速,且困惑度下降极小,其中 q4_0/turbo4 提供了最佳平衡。
一位用户报告称,在使用Qwen模型进行推理时,添加第二张RTX 3090后实现了近乎线性的性能扩展,在没有NVLink的情况下,解码TPS提升了约1.8倍。
使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测(MTP)基准测试显示,推理速度最高提升 3.34 倍,最优推测令牌数量因模型和引擎而异。
在 V100 GPU 上,使用 Qwen3.6 27B 模型,通过 128 个并发请求实现了每秒 1000 tokens 的生成速度,单用户下为 80 t/s。