[基准测试] 5090RTX：提示解析、Token 生成与功耗等级

Reddit r/LocalLLaMA 2026/05/14 11:38 新闻

gpu-benchmarking power-efficiency llm-inference nvidia-5090 llama-cpp token-generation prompt-processing

摘要

一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试，测量了不同功耗水平下的提示处理和 token 生成情况，发现提示处理对功耗限制更为敏感，而 token 生成相对不敏感，并指出了与 4090 RTX 的差异。

受 [https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop\_wasting\_electricity/](https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/) 启发，我决定测试我的 5090，看看该设备的曲线如何，以及是否存在明显的甜区（除了将其设置为最低 400w 之外）。**图表与结果：** https://preview.redd.it/t0icb8j7831h1.png?width=1700&format=png&auto=webp&s=f787b987c14ff1670d26171304dbdfc6e9fc3a69 https://preview.redd.it/6pe7k7j7831h1.png?width=1700&format=png&auto=webp&s=62b08ebab967f7af6dc8a7a865b2d22856d54a0c https://preview.redd.it/vya398j7831h1.png?width=1700&format=png&auto=webp&s=d7f4330159964e5373266c717a1cde7c491df3f3 https://preview.redd.it/o7inv8j7831h1.png?width=1700&format=png&auto=webp&s=0baced5e3ffd1b33558bf9085d7ffea0622ce3f2 **输入：** 后端：llama.cpp 在 Docker 容器中，FA 开启，batch 2048，最大上下文 122k。模型：[https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced](https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced) 量化：Q6\_K\_P 硬件：Threadripper 6970，双通道 64GB 内存，5090RTX 提示：30k 提示，由 3 个 10k 的相同基准测试副本组成，用于高强度的推理、数学和计算，可按需提供——由 QWEN 3.6 专门为基准测试生成。**方法：** 为节省时间并鉴于后续 TG 指标的渐近性质，生成在 2 分钟后停止。测量在热卡上进行，因为冷卡测量在会话之间会花费太多时间。每次测量之间完全重启服务器以重置 KV 缓存，从而确保对相同输入获得正确的 PP 测量结果。**功耗范围：** 400w - 600w，步长 25w **备注：** 记录到的最大功耗为 592w（功耗限制设为 600w），持续负载从未达到 600w，即使不设限也稳定在 580w。在其他所有启动中，可以看到最大值超出设置功耗限制 10-12w 的趋势，反映了 5090RTX 已经闻名的尖峰特性。冷卡比热卡快 2-3%，这使得持续负载任务自然比手动驱动的任务慢。提示处理对功耗限制更为敏感，而 Token 生成在这些数值下几乎呈线性。与 [https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop\_wasting\_electricity/](https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/) 帖子中使用的设置相比并不完全对等，但 4090rtx 和 5090rtx 之间的差异似乎不仅仅是功耗更高，而且对 PP 和 TG 的影响也不相同： |功耗限制|提示处理 5090|提示处理 4090|%|Token生成 5090|Token生成 4090|%| |:-|:-|:-|:-|:-|:-|:-| |450w|2273|2113|1.075721723|49.3|41|1.202439024| |425w|2248|2093|1.074056378|48.9|41.6|1.175480769| |400w|2135|2061|1.035904901|48.7|42.5|1.145882353|

查看原文

[基准测试] 5090RTX：提示解析、Token 生成与功耗等级

相似文章

Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比

@Snixtp: 针对单张 RTX 3090 的更多能效测试长文速读：- 我在单张 RTX 3090 上测试了 8 个本地大语言模型（LLM），功率限制从 100W 到 45…

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

RTX 5000 PRO (48GB) 到货了，比我想象的要好。

提交意见反馈