inference-benchmark

标签

Cards List
#inference-benchmark

[基准测试] RTX 5090上的DFlash推测解码与KV缓存压缩 — 3.26倍加速

Reddit r/LocalLLaMA · 2026-06-08

在 RTX 5090 上对 DFlash 推测解码结合 KV 缓存压缩进行的基准测试显示,针对 Qwen3.6-27B 模型最高可实现 3.26 倍加速,且困惑度下降极小,其中 q4_0/turbo4 提供了最佳平衡。

0 人收藏 0 人点赞
#inference-benchmark

再加一张GPU就获得近乎线性的扩展?有点奇怪

Reddit r/LocalLLaMA · 2026-06-08

一位用户报告称,在使用Qwen模型进行推理时,添加第二张RTX 3090后实现了近乎线性的性能扩展,在没有NVLink的情况下,解码TPS提升了约1.8倍。

0 人收藏 0 人点赞
#inference-benchmark

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍,这是我的发现(RTX 6000 PRO)。

Reddit r/LocalLLaMA · 2026-05-29

使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测(MTP)基准测试显示,推理速度最高提升 3.34 倍,最优推测令牌数量因模型和引擎而异。

0 人收藏 0 人点赞
#inference-benchmark

在 V100 上使用 Qwen3.6 27B 实现每秒 1000 tokens 生成

Reddit r/LocalLLaMA · 2026-05-25

在 V100 GPU 上,使用 Qwen3.6 27B 模型,通过 128 个并发请求实现了每秒 1000 tokens 的生成速度,单用户下为 80 t/s。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈