[基准测试] 5090RTX:提示解析、Token 生成与功耗等级
摘要
一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。
受 [https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop\_wasting\_electricity/](https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/) 启发,我决定测试我的 5090,看看该设备的曲线如何,以及是否存在明显的甜区(除了将其设置为最低 400w 之外)。**图表与结果:** https://preview.redd.it/t0icb8j7831h1.png?width=1700&format=png&auto=webp&s=f787b987c14ff1670d26171304dbdfc6e9fc3a69 https://preview.redd.it/6pe7k7j7831h1.png?width=1700&format=png&auto=webp&s=62b08ebab967f7af6dc8a7a865b2d22856d54a0c https://preview.redd.it/vya398j7831h1.png?width=1700&format=png&auto=webp&s=d7f4330159964e5373266c717a1cde7c491df3f3 https://preview.redd.it/o7inv8j7831h1.png?width=1700&format=png&auto=webp&s=0baced5e3ffd1b33558bf9085d7ffea0622ce3f2 **输入:** 后端:llama.cpp 在 Docker 容器中,FA 开启,batch 2048,最大上下文 122k。模型:[https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced](https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced) 量化:Q6\_K\_P 硬件:Threadripper 6970,双通道 64GB 内存,5090RTX 提示:30k 提示,由 3 个 10k 的相同基准测试副本组成,用于高强度的推理、数学和计算,可按需提供——由 QWEN 3.6 专门为基准测试生成。**方法:** 为节省时间并鉴于后续 TG 指标的渐近性质,生成在 2 分钟后停止。测量在热卡上进行,因为冷卡测量在会话之间会花费太多时间。每次测量之间完全重启服务器以重置 KV 缓存,从而确保对相同输入获得正确的 PP 测量结果。**功耗范围:** 400w - 600w,步长 25w **备注:** 记录到的最大功耗为 592w(功耗限制设为 600w),持续负载从未达到 600w,即使不设限也稳定在 580w。在其他所有启动中,可以看到最大值超出设置功耗限制 10-12w 的趋势,反映了 5090RTX 已经闻名的尖峰特性。冷卡比热卡快 2-3%,这使得持续负载任务自然比手动驱动的任务慢。提示处理对功耗限制更为敏感,而 Token 生成在这些数值下几乎呈线性。与 [https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop\_wasting\_electricity/](https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/) 帖子中使用的设置相比并不完全对等,但 4090rtx 和 5090rtx 之间的差异似乎不仅仅是功耗更高,而且对 PP 和 TG 的影响也不相同:
|功耗限制|提示处理 5090|提示处理 4090|%|Token生成 5090|Token生成 4090|%|
|:-|:-|:-|:-|:-|:-|:-|
|450w|2273|2113|1.075721723|49.3|41|1.202439024|
|425w|2248|2093|1.074056378|48.9|41.6|1.175480769|
|400w|2135|2061|1.035904901|48.7|42.5|1.145882353|
相似文章
Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比
社区实测显示,在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%,Token 生成平均慢约 54%;同一张卡 SYCL 后端有时比 Vulkan 更快。
@Snixtp: 针对单张 RTX 3090 的更多能效测试 长文速读:- 我在单张 RTX 3090 上测试了 8 个本地大语言模型(LLM),功率限制从 100W 到 45…
本文展示了 8 个本地大语言模型在 RTX 3090 上的基准测试结果,显示功率能效在约 225W 时达到峰值,而在满功率下收益递减。
MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp
一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
RTX 5000 PRO (48GB) 到货了,比我想象的要好。
一位用户分享了购买和设置 RTX 5000 Pro (48GB) GPU 用于本地 LLM 推理的体验,在使用 Qwen3.6-27B-FP8 时获得了令人印象深刻的提示处理速度和 token 生成,并将其与 Mac Studio 和 RTX 5090 等替代方案进行了比较。