@ctnzr: 我们更进一步:Nemotron 3 Super 拥有120B参数,在NVFP4精度下基于25T tokens进行了预训练。Nemotron 3 Ultra 大约为500B参数,……

X AI KOLs Following 模型

摘要

NVIDIA 宣布推出 Nemotron 3 Super(120B)和 Nemotron 3 Ultra(约500B)模型,这些模型在 NVFP4 精度下基于25T tokens进行了预训练,强调加速计算和效率提升。

我们更进一步: Nemotron 3 Super 拥有120B参数,在NVFP4精度下基于25T tokens进行了预训练。 Nemotron 3 Ultra 大约为500B参数,同样在NVFP4精度下进行了预训练。 加速计算意味着我们重新思考AI堆栈的每一个方面,寻找新的机会来提高效率。
查看原文
查看缓存全文

缓存时间: 2026/05/15 23:08

我们走得更远了: Nemotron 3 Super 拥有 120B 参数,基于 25T 个 token 使用 NVFP4 进行预训练。 Nemotron 3 Ultra 约 500B 参数,同样采用 NVFP4 预训练。

加速计算意味着我们要重新审视 AI 技术栈的每一个环节,寻找提高效率的新机会。

相似文章

NVIDIA Nemotron 3 Ultra 已发布。

Reddit r/LocalLLaMA

NVIDIA 发布了 Nemotron 3 Ultra,这是一款新模型,旨在为长期运行的 AI 智能体提供更快、更高效的推理能力。

NVIDIA 刚刚宣布发布 Nemotron 3 Ultra(2分钟阅读)

TLDR AI

Anthropic 发布了其最智能的模型 Claude Opus 4.5,在 Artificial Analysis Intelligence Index 上获得 70 分,仅次于 Gemini 3 Pro。该模型在编码和智能体任务方面取得了显著进步,同时降低了每个token的价格,并保持了强劲的安全性能。

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

Reddit r/LocalLLaMA

NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。