Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s

Reddit r/LocalLLaMA 工具

摘要

一个开发者工具包,提供在使用 TensorRT-LLM 通过 Nvidia Blackwell GPU 以 NVFP4 精度运行大型语言模型时的配置、预编译包(wheels)及基准测试数据。

我试图找到一组支持 NVFP4 的优质模型以充分利用 RTX Pro 6000,途中克服了一些障碍,并顺便完成了配置、预编译包的设置以及基准测试。希望这对大家有所帮助。这套方案应该适用于所有 Nvidia Blackwell 显卡(如 5090、5080、5070ti 等),只要模型能适配即可(例如可以堆叠两张 5070TI)。总之,这里是相关仓库:[https://github.com/elsung/blackwell-llm-toolkit](https://github.com/elsung/blackwell-llm-toolkit) # 注意事项与解决方案 * **TRT-LLM 启动标志** * 必须启用某些晦涩的设置,才能使 TensorRT-LLM 运行较新的 Mamba 混合架构模型。相关 YAML 文件位于仓库的 `configs/trtllm/nemotron-omni-v3-sm120.yaml`。 * **LMCache** * 将上下文卸载到 SSD 以为显存中的模型腾出空间。PyPI 上的预编译包在 Blackwell 架构上崩溃(缺少 sm_120 cubins),因此我从源码重新编译了它。在我的 Optane 驱动上运行良好。仓库中包含了预编译包和构建脚本。 * **研究文档** * AI 生成的深度分析报告,解释了最新模型家族(Nemotron Omni V3、Qwen 3.5/3.6、Gemma 4)的实际差异。是很好的参考资料。特别是关于 Qwen 3.5/3.6 的分析让我避免了一个大坑——它们看起来像是重命名的 Qwen3-VL,但底层架构完全不同。 # 基准测试亮点 测试环境:单张 RTX Pro 6000 96GB,无张量并行。速度数值为持续解码的 tok/s(3 次运行的中位数,500 token 完成长度)。 **Nemotron-3-Nano-Omni V3(多模态 — 图像/视频/音频 + 文本)** * NVFP4 量化,在 8k 上下文下测试 → **270 tok/s** * 速度最快,且支持所有模态。需要 TRT-LLM v1.3.0rc13。 * [https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4](https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4) **Nemotron-3-Nano(仅文本)** * NVFP4 量化,在 8k 上下文下测试 → **249 tok/s** * 最适合工具调用代理(工具使用评分 10/10)。 * [https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4) **DeepSeek-V4-Flash** * IQ2_XXS-XL GGUF,在 65k 上下文下测试 → **31 tok/s** * 最适合复杂推理(智能评分 9/10 + 工具评分 10/10 + 校准评分 13/13)。 * [https://huggingface.co/teamblobfish/DeepSeek-V4-Flash-GGUF](https://huggingface.co/teamblobfish/DeepSeek-V4-Flash-GGUF) (IQ2_XXS-XL) **MiniMax-M2.7-REAP-172B** * Q3_K_S GGUF,在 196k 上下文下测试 → **117 tok/s** * 适合长对话。 * [https://huggingface.co/exdysa/MiniMax-M2.7-REAP-172B-A10B-GGUF](https://huggingface.co/exdysa/MiniMax-M2.7-REAP-172B-A10B-GGUF) (Q3_K_S) **MiniMax-M2.7 W4A16(配合 LMCache → Optane SSD)** * W4A16 AutoRound,在 154k 上下文下测试 → **20-22 tok/s** * 长上下文配合 W4A16 质量的答案,KV 缓存卸载到 SSD。 * [https://huggingface.co/MJPansa/MiniMax-M2.7-REAP-172B-A10B-AutoRound-W4A16](https://huggingface.co/MJPansa/MiniMax-M2.7-REAP-172B-A10B-AutoRound-W4A16) **MiniMax-M2.7 W4A16(短上下文,无 LMCache)** * 同上模型,在 64k 上下文下测试 → **22-25 tok/s** * 高质量短答案(智能评分 10/10)。 *包含 TTFT、预填充速度、并发数及所有质量评估分数的完整表格 → 见仓库中的 bench/results.md:* [*https://github.com/elsung/blackwell-llm-toolkit/blob/main/bench/results.md*](https://github.com/elsung/blackwell-llm-toolkit/blob/main/bench/results.md) # 用于验证的基准测试工具 * `rapid_bench.py` — 41 个提示词的质量评估(10 个智能测试 + 10 个工具使用测试 + 13 个校准测试 + 3 个编排测试 + 5 个创意写作测试) * `bench_harness.py` — 持续解码 + TTFT + 预填充 + 并发测试,以及针对 154k 长上下文 mjpansa 运行的 `--prompt-tokens N` 模式 *Apache 2.0 协议,欢迎 PR —— 特别是来自其他 Blackwell GPU 用户(RTX 5090/5080/5070TI)的基准测试贡献,以便完善不同硬件间的对比数据。*
查看原文

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。

[基准测试] 5090RTX:提示解析、Token 生成与功耗等级

Reddit r/LocalLLaMA

一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。