Nemotron - 深度之王?4个≤120B模型的对比

Reddit r/LocalLLaMA 新闻

摘要

使用Strix Halo硬件对四个大型语言模型(≤120B参数)在深度上下文性能上的比较。与GPT-OSS和Qwen模型相比,Nemotron Super在深度上下文中的提示处理速度表现出色。

比较是在 Strix Halo 128GB 共享内存、Ubuntu 26.04、Lemonade Server、Vulkan 后端上进行的。 我经常运行像 gpt-oss 120B 或 qwen 这样较大的模型,但一旦进入深水区……嗯……深度上下文,它们的性能似乎会迅速下降。 对我来说,最重要的指标是提示处理——在分析现有代码以进行变更请求或错误修复时,代码和上下文会很快填满。在现有代码中,我认为总时间的 95-99% 是 PP(提示处理),1-5% 是 TG(令牌生成)。 我最近尝试了 Nemotron Super (120B),喜欢它的质量,速度也还可以,但令我惊讶的是,我觉得它处理更深上下文(约 100k)的能力比我习惯的其他类似模型要好得多。 为了验证这一主观印象,我使用 llama-bench 对 120B 级别的三个竞争者(GPT-OSS、qwen 3.5 和 Nemotron)进行了测试,并主要作为比较,还加入了流行的小型/弱/更快的 Qwen 3.6 35B 模型。 我主观地将 100 TPS PP 设为“可用”的基准线,如果模型低于该值,则停止基准测试。 另外,我应该提到最大上下文因模型而异:GPT-OSS 可以处理最大约 128K,Qwen 3.5/6 可以处理约 256K,而 Nemotron 可以处理高达 400k 令牌的上下文深度。 我的主要结论是:我的感觉是对的,Nemotron Super 在处理深度上下文方面比其他模型表现异常出色。'速度之王' GPT-OSS 120B 的速度下降得非常快,以至于 Nemotron Super 在 32K 深度时就在 PP 上超越了它。QWEN 3.5 122B A10B 几乎在 16K 深度时就被超越了。令人惊讶的是,即使是 Qwen 3.6 35B A3B 的 PP 在其最大上下文约 256k 时也达到了相同水平。 在令牌生成速度方面(我认为不那么重要),Nemotron Super 开始时是可用的(我认为 >~10 TG TPS),但还没有达到真正“有趣”的程度(我认为 >~20 TG TPS)。根据这个定义,它在约 400k 上下文深度时缓慢下降到“勉强可用”的程度——在我看来这仍然令人印象深刻。最直接的竞争对手 Qwen 3.5 122B A10B 在 128k 上下文时速度差不多慢。不过请注意,我没有启用 MTP。如果你需要高 TG,对于低于 128k 的上下文,Nemotron 不是最佳模型;如果你主要需要 PP 且需要更大的模型,Nemotron 似乎是一个合理的选择。如果你不需要那么大的模型,后备方案显然是较小的 Qwen 3.6 变体,如 35B。 有人有不同的结果吗?也许用 rocm?有什么我没有考虑到的调整吗?
查看原文

相似文章