@TheAhmadOsman: 为什么我关注你硬件的推理引擎/软件栈? - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 提升到…

X AI KOLs Following 新闻

摘要

不同硬件上推理引擎性能对比:在2x RTX 3090s上从基线迁移到TP=2的vLLM,性能从~14.5 tok/s提升至~64 tok/s;在RTX PRO 6000上迁移到Sglang,性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang,在边缘设备使用llama.cpp。

为什么我关注你硬件的推理引擎/软件栈? - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 迁移到vLLM(TP=2) - RTX PRO 6000: ~32 tok/s → ~110 tok/s 迁移到Sglang 所以: - CUDA/2+ GPUs: ExLlamaV3/vLLM/Sglang > llama.cpp - 边缘设备: llama.cpp > Ollama https://t.co/5WXSlPrrOB
查看原文
查看缓存全文

缓存时间: 2026/06/22 05:31

为什么我关注您硬件的推理引擎/软件栈?

  • 2x RTX 3090:~14.5 tok/s → 使用 vLLM(TP=2)后提升至 ~64 tok/s
  • RTX PRO 6000:~32 tok/s → 使用 Sglang 后提升至 ~110 tok/s

因此:

  • CUDA/多 GPU 场景:ExLlamaV3/vLLM/Sglang > llama.cpp
  • 边缘设备:llama.cpp > Ollama https://t.co/5WXSlPrrOB

相似文章

大语言模型与本地AI硬件的推理引擎(2026版)

X AI KOLs

本文提供了一份全面的指南,针对2026年本地AI硬件上的大语言模型推理引擎,解释了如何根据硬件策略、工作负载和服务模型进行选择,并涵盖了诸如llama.cpp、MLX、ExLlamaV2/3、vLLM、SGLang、TensorRT-LLM和NVIDIA Dynamo等引擎。

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。