inference-benchmark

#inference-benchmark

[基准测试] RTX 5090上的DFlash推测解码与KV缓存压缩 — 3.26倍加速

Reddit r/LocalLLaMA ↗ · 2026-06-08

在 RTX 5090 上对 DFlash 推测解码结合 KV 缓存压缩进行的基准测试显示，针对 Qwen3.6-27B 模型最高可实现 3.26 倍加速，且困惑度下降极小，其中 q4_0/turbo4 提供了最佳平衡。

0 人收藏 0 人点赞

#inference-benchmark

Reddit r/LocalLLaMA ↗ · 2026-06-08

一位用户报告称，在使用Qwen模型进行推理时，添加第二张RTX 3090后实现了近乎线性的性能扩展，在没有NVLink的情况下，解码TPS提升了约1.8倍。

0 人收藏 0 人点赞

#inference-benchmark

Reddit r/LocalLLaMA ↗ · 2026-05-29

使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测（MTP）基准测试显示，推理速度最高提升 3.34 倍，最优推测令牌数量因模型和引擎而异。

0 人收藏 0 人点赞

#inference-benchmark

Reddit r/LocalLLaMA ↗ · 2026-05-25

在 V100 GPU 上，使用 Qwen3.6 27B 模型，通过 128 个并发请求实现了每秒 1000 tokens 的生成速度，单用户下为 80 t/s。

0 人收藏 0 人点赞