Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s
摘要
一个开发者工具包,提供在使用 TensorRT-LLM 通过 Nvidia Blackwell GPU 以 NVFP4 精度运行大型语言模型时的配置、预编译包(wheels)及基准测试数据。
我试图找到一组支持 NVFP4 的优质模型以充分利用 RTX Pro 6000,途中克服了一些障碍,并顺便完成了配置、预编译包的设置以及基准测试。希望这对大家有所帮助。这套方案应该适用于所有 Nvidia Blackwell 显卡(如 5090、5080、5070ti 等),只要模型能适配即可(例如可以堆叠两张 5070TI)。总之,这里是相关仓库:[https://github.com/elsung/blackwell-llm-toolkit](https://github.com/elsung/blackwell-llm-toolkit)
# 注意事项与解决方案
* **TRT-LLM 启动标志**
* 必须启用某些晦涩的设置,才能使 TensorRT-LLM 运行较新的 Mamba 混合架构模型。相关 YAML 文件位于仓库的 `configs/trtllm/nemotron-omni-v3-sm120.yaml`。
* **LMCache**
* 将上下文卸载到 SSD 以为显存中的模型腾出空间。PyPI 上的预编译包在 Blackwell 架构上崩溃(缺少 sm_120 cubins),因此我从源码重新编译了它。在我的 Optane 驱动上运行良好。仓库中包含了预编译包和构建脚本。
* **研究文档**
* AI 生成的深度分析报告,解释了最新模型家族(Nemotron Omni V3、Qwen 3.5/3.6、Gemma 4)的实际差异。是很好的参考资料。特别是关于 Qwen 3.5/3.6 的分析让我避免了一个大坑——它们看起来像是重命名的 Qwen3-VL,但底层架构完全不同。
# 基准测试亮点
测试环境:单张 RTX Pro 6000 96GB,无张量并行。速度数值为持续解码的 tok/s(3 次运行的中位数,500 token 完成长度)。
**Nemotron-3-Nano-Omni V3(多模态 — 图像/视频/音频 + 文本)**
* NVFP4 量化,在 8k 上下文下测试 → **270 tok/s**
* 速度最快,且支持所有模态。需要 TRT-LLM v1.3.0rc13。
* [https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4](https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4)
**Nemotron-3-Nano(仅文本)**
* NVFP4 量化,在 8k 上下文下测试 → **249 tok/s**
* 最适合工具调用代理(工具使用评分 10/10)。
* [https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4)
**DeepSeek-V4-Flash**
* IQ2_XXS-XL GGUF,在 65k 上下文下测试 → **31 tok/s**
* 最适合复杂推理(智能评分 9/10 + 工具评分 10/10 + 校准评分 13/13)。
* [https://huggingface.co/teamblobfish/DeepSeek-V4-Flash-GGUF](https://huggingface.co/teamblobfish/DeepSeek-V4-Flash-GGUF) (IQ2_XXS-XL)
**MiniMax-M2.7-REAP-172B**
* Q3_K_S GGUF,在 196k 上下文下测试 → **117 tok/s**
* 适合长对话。
* [https://huggingface.co/exdysa/MiniMax-M2.7-REAP-172B-A10B-GGUF](https://huggingface.co/exdysa/MiniMax-M2.7-REAP-172B-A10B-GGUF) (Q3_K_S)
**MiniMax-M2.7 W4A16(配合 LMCache → Optane SSD)**
* W4A16 AutoRound,在 154k 上下文下测试 → **20-22 tok/s**
* 长上下文配合 W4A16 质量的答案,KV 缓存卸载到 SSD。
* [https://huggingface.co/MJPansa/MiniMax-M2.7-REAP-172B-A10B-AutoRound-W4A16](https://huggingface.co/MJPansa/MiniMax-M2.7-REAP-172B-A10B-AutoRound-W4A16)
**MiniMax-M2.7 W4A16(短上下文,无 LMCache)**
* 同上模型,在 64k 上下文下测试 → **22-25 tok/s**
* 高质量短答案(智能评分 10/10)。
*包含 TTFT、预填充速度、并发数及所有质量评估分数的完整表格 → 见仓库中的 bench/results.md:*
[*https://github.com/elsung/blackwell-llm-toolkit/blob/main/bench/results.md*](https://github.com/elsung/blackwell-llm-toolkit/blob/main/bench/results.md)
# 用于验证的基准测试工具
* `rapid_bench.py` — 41 个提示词的质量评估(10 个智能测试 + 10 个工具使用测试 + 13 个校准测试 + 3 个编排测试 + 5 个创意写作测试)
* `bench_harness.py` — 持续解码 + TTFT + 预填充 + 并发测试,以及针对 154k 长上下文 mjpansa 运行的 `--prompt-tokens N` 模式
*Apache 2.0 协议,欢迎 PR —— 特别是来自其他 Blackwell GPU 用户(RTX 5090/5080/5070TI)的基准测试贡献,以便完善不同硬件间的对比数据。*
相似文章
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。
@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm
AirLLM是一个开源工具,优化推理内存使用,无需量化即可在单个4GB GPU上运行70B大语言模型,并支持在8GB显存上运行405B模型。
club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置
一个GitHub仓库,提供在双RTX 5060 Ti 16GB显卡上使用vLLM和llama.cpp运行本地LLM(如Qwen3.6 27B)的实用配置和基准测试。
llama.cpp b9095 发布!支持双 Blackwell PCIe 显卡无需 NCCL 的张量并行
llama.cpp b9095 版本引入了针对双 Blackwell PCIe GPU 的免 NCCL 张量并行功能,使得在不依赖 NCCL 的情况下也能实现高效的多 GPU 推理。
[基准测试] 5090RTX:提示解析、Token 生成与功耗等级
一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。