Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s

Reddit r/LocalLLaMA 2026/05/12 02:27 工具

tensorrt-llm blackwell nvfp4 local-llm benchmarking gpu-optimization

摘要

一个开发者工具包，提供在使用 TensorRT-LLM 通过 Nvidia Blackwell GPU 以 NVFP4 精度运行大型语言模型时的配置、预编译包（wheels）及基准测试数据。

我试图找到一组支持 NVFP4 的优质模型以充分利用 RTX Pro 6000，途中克服了一些障碍，并顺便完成了配置、预编译包的设置以及基准测试。希望这对大家有所帮助。这套方案应该适用于所有 Nvidia Blackwell 显卡（如 5090、5080、5070ti 等），只要模型能适配即可（例如可以堆叠两张 5070TI）。总之，这里是相关仓库：[https://github.com/elsung/blackwell-llm-toolkit](https://github.com/elsung/blackwell-llm-toolkit) # 注意事项与解决方案 * **TRT-LLM 启动标志** * 必须启用某些晦涩的设置，才能使 TensorRT-LLM 运行较新的 Mamba 混合架构模型。相关 YAML 文件位于仓库的 `configs/trtllm/nemotron-omni-v3-sm120.yaml`。 * **LMCache** * 将上下文卸载到 SSD 以为显存中的模型腾出空间。PyPI 上的预编译包在 Blackwell 架构上崩溃（缺少 sm_120 cubins），因此我从源码重新编译了它。在我的 Optane 驱动上运行良好。仓库中包含了预编译包和构建脚本。 * **研究文档** * AI 生成的深度分析报告，解释了最新模型家族（Nemotron Omni V3、Qwen 3.5/3.6、Gemma 4）的实际差异。是很好的参考资料。特别是关于 Qwen 3.5/3.6 的分析让我避免了一个大坑——它们看起来像是重命名的 Qwen3-VL，但底层架构完全不同。 # 基准测试亮点测试环境：单张 RTX Pro 6000 96GB，无张量并行。速度数值为持续解码的 tok/s（3 次运行的中位数，500 token 完成长度）。 **Nemotron-3-Nano-Omni V3（多模态 — 图像/视频/音频 + 文本）** * NVFP4 量化，在 8k 上下文下测试 → **270 tok/s** * 速度最快，且支持所有模态。需要 TRT-LLM v1.3.0rc13。 * [https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4](https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4) **Nemotron-3-Nano（仅文本）** * NVFP4 量化，在 8k 上下文下测试 → **249 tok/s** * 最适合工具调用代理（工具使用评分 10/10）。 * [https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4) **DeepSeek-V4-Flash** * IQ2_XXS-XL GGUF，在 65k 上下文下测试 → **31 tok/s** * 最适合复杂推理（智能评分 9/10 + 工具评分 10/10 + 校准评分 13/13）。 * [https://huggingface.co/teamblobfish/DeepSeek-V4-Flash-GGUF](https://huggingface.co/teamblobfish/DeepSeek-V4-Flash-GGUF) (IQ2_XXS-XL) **MiniMax-M2.7-REAP-172B** * Q3_K_S GGUF，在 196k 上下文下测试 → **117 tok/s** * 适合长对话。 * [https://huggingface.co/exdysa/MiniMax-M2.7-REAP-172B-A10B-GGUF](https://huggingface.co/exdysa/MiniMax-M2.7-REAP-172B-A10B-GGUF) (Q3_K_S) **MiniMax-M2.7 W4A16（配合 LMCache → Optane SSD）** * W4A16 AutoRound，在 154k 上下文下测试 → **20-22 tok/s** * 长上下文配合 W4A16 质量的答案，KV 缓存卸载到 SSD。 * [https://huggingface.co/MJPansa/MiniMax-M2.7-REAP-172B-A10B-AutoRound-W4A16](https://huggingface.co/MJPansa/MiniMax-M2.7-REAP-172B-A10B-AutoRound-W4A16) **MiniMax-M2.7 W4A16（短上下文，无 LMCache）** * 同上模型，在 64k 上下文下测试 → **22-25 tok/s** * 高质量短答案（智能评分 10/10）。 *包含 TTFT、预填充速度、并发数及所有质量评估分数的完整表格 → 见仓库中的 bench/results.md：* [*https://github.com/elsung/blackwell-llm-toolkit/blob/main/bench/results.md*](https://github.com/elsung/blackwell-llm-toolkit/blob/main/bench/results.md) # 用于验证的基准测试工具 * `rapid_bench.py` — 41 个提示词的质量评估（10 个智能测试 + 10 个工具使用测试 + 13 个校准测试 + 3 个编排测试 + 5 个创意写作测试） * `bench_harness.py` — 持续解码 + TTFT + 预填充 + 并发测试，以及针对 154k 长上下文 mjpansa 运行的 `--prompt-tokens N` 模式 *Apache 2.0 协议，欢迎 PR —— 特别是来自其他 Blackwell GPU 用户（RTX 5090/5080/5070TI）的基准测试贡献，以便完善不同硬件间的对比数据。*

查看原文

Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm

club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置

llama.cpp b9095 发布！支持双 Blackwell PCIe 显卡无需 NCCL 的张量并行

[基准测试] 5090RTX：提示解析、Token 生成与功耗等级

提交意见反馈