Nemotron - 深度之王？4个≤120B模型的对比

Reddit r/LocalLLaMA 2026/06/14 20:25 新闻

nemotron deep-context benchmark llm-comparison prompt-processing strix-halo vulkan

摘要

使用Strix Halo硬件对四个大型语言模型（≤120B参数）在深度上下文性能上的比较。与GPT-OSS和Qwen模型相比，Nemotron Super在深度上下文中的提示处理速度表现出色。

比较是在 Strix Halo 128GB 共享内存、Ubuntu 26.04、Lemonade Server、Vulkan 后端上进行的。我经常运行像 gpt-oss 120B 或 qwen 这样较大的模型，但一旦进入深水区……嗯……深度上下文，它们的性能似乎会迅速下降。对我来说，最重要的指标是提示处理——在分析现有代码以进行变更请求或错误修复时，代码和上下文会很快填满。在现有代码中，我认为总时间的 95-99% 是 PP（提示处理），1-5% 是 TG（令牌生成）。我最近尝试了 Nemotron Super (120B)，喜欢它的质量，速度也还可以，但令我惊讶的是，我觉得它处理更深上下文（约 100k）的能力比我习惯的其他类似模型要好得多。为了验证这一主观印象，我使用 llama-bench 对 120B 级别的三个竞争者（GPT-OSS、qwen 3.5 和 Nemotron）进行了测试，并主要作为比较，还加入了流行的小型/弱/更快的 Qwen 3.6 35B 模型。我主观地将 100 TPS PP 设为“可用”的基准线，如果模型低于该值，则停止基准测试。另外，我应该提到最大上下文因模型而异：GPT-OSS 可以处理最大约 128K，Qwen 3.5/6 可以处理约 256K，而 Nemotron 可以处理高达 400k 令牌的上下文深度。我的主要结论是：我的感觉是对的，Nemotron Super 在处理深度上下文方面比其他模型表现异常出色。'速度之王' GPT-OSS 120B 的速度下降得非常快，以至于 Nemotron Super 在 32K 深度时就在 PP 上超越了它。QWEN 3.5 122B A10B 几乎在 16K 深度时就被超越了。令人惊讶的是，即使是 Qwen 3.6 35B A3B 的 PP 在其最大上下文约 256k 时也达到了相同水平。在令牌生成速度方面（我认为不那么重要），Nemotron Super 开始时是可用的（我认为 >~10 TG TPS），但还没有达到真正“有趣”的程度（我认为 >~20 TG TPS）。根据这个定义，它在约 400k 上下文深度时缓慢下降到“勉强可用”的程度——在我看来这仍然令人印象深刻。最直接的竞争对手 Qwen 3.5 122B A10B 在 128k 上下文时速度差不多慢。不过请注意，我没有启用 MTP。如果你需要高 TG，对于低于 128k 的上下文，Nemotron 不是最佳模型；如果你主要需要 PP 且需要更大的模型，Nemotron 似乎是一个合理的选择。如果你不需要那么大的模型，后备方案显然是较小的 Qwen 3.6 变体，如 35B。有人有不同的结果吗？也许用 rocm？有什么我没有考虑到的调整吗？

查看原文

Nemotron - 深度之王？4个≤120B模型的对比

相似文章

Nemotron 3 Ultra。5500亿参数，550亿活跃参数，100万token上下文窗口

@ctnzr: 我们更进一步：Nemotron 3 Super 拥有120B参数，在NVFP4精度下基于25T tokens进行了预训练。Nemotron 3 Ultra 大约为500B参数，……

@cyrilXBT: Nemotron 3 Ultra 对比 DeepSeek V4 对比 MiniMax M3 对比 Qwen 3.7 Max。相同两个提示词。四个前沿模型。一个…

REAP 剪枝版 Nemotron-3-Super（512→256 experts）+ GRPO 微调 + FP8/AWQ，AIME 2026 90%+，附 Benchmark

Nemotron 3 Ultra：用于智能体推理的高效开源混合专家Mamba-Transformer模型

提交意见反馈