@TheAhmadOsman: 为什么我关注你硬件的推理引擎/软件栈？ - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 提升到…

X AI KOLs Following 2026/06/21 18:55 新闻

inference performance vllm sglang llama-cpp gpu software-stack

摘要

不同硬件上推理引擎性能对比：在2x RTX 3090s上从基线迁移到TP=2的vLLM，性能从~14.5 tok/s提升至~64 tok/s；在RTX PRO 6000上迁移到Sglang，性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang，在边缘设备使用llama.cpp。

为什么我关注你硬件的推理引擎/软件栈？ - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 迁移到vLLM（TP=2） - RTX PRO 6000: ~32 tok/s → ~110 tok/s 迁移到Sglang 所以： - CUDA/2+ GPUs: ExLlamaV3/vLLM/Sglang > llama.cpp - 边缘设备: llama.cpp > Ollama https://t.co/5WXSlPrrOB

查看原文

查看缓存全文

缓存时间: 2026/06/22 05:31

为什么我关注您硬件的推理引擎/软件栈？

2x RTX 3090：~14.5 tok/s → 使用 vLLM（TP=2）后提升至 ~64 tok/s
RTX PRO 6000：~32 tok/s → 使用 Sglang 后提升至 ~110 tok/s

因此：

CUDA/多 GPU 场景：ExLlamaV3/vLLM/Sglang > llama.cpp
边缘设备：llama.cpp > Ollama https://t.co/5WXSlPrrOB

@TheAhmadOsman: 为什么我关注你硬件的推理引擎/软件栈？ - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 提升到…

为什么我关注您硬件的推理引擎/软件栈？

相似文章

比较 llama.cpp 行/张量分割与 ik_llama 图分割的双GPU推理速度

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的运行 — 5090 + 3090 Ti 速度测试 (~ 579 t/s 预填充 @ 8k 上下文, ~324 t/s 预填充 @ 57k 上下文, ~10.6 t/s 解码)

大语言模型与本地AI硬件的推理引擎（2026版）

@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

提交意见反馈