@swyx: 链接汇总：

X AI KOLs Following 2026/06/02 03:39 新闻

nvidia cosmos-3 nemotron-3 rtx-spark ai-news open-weights sota

摘要

NVIDIA 发布 Cosmos 3（混合 Transformer 模型，参数最高达 64B）、Nemotron 3 Ultra（550B-A55B 大语言模型），并在 Computex 2026 上预览了 RTX Spark 个人超级芯片，在多个开源模型排行榜上达到 SOTA。

@Microsoft @nvidia 链接汇总：https://t.co/52cazFXk1f

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:41

@Microsoft @nvidia 链接汇总：https://t.co/52cazFXk1f

[AINews] NVIDIA Cosmos 3、Nemotron 3 Ultra 和 RTX Spark

来源：https://www.latent.space/p/ainews-nvidia-cosmos-3-nemotron-3 今天的播客嘉宾 (https://www.latent.space/p/video-agents) 一年多前曾领导 NVIDIA Cosmos 项目，讨论了视频生成和世界模型的训练。恰如其分的是，Cosmos 3 今天正式发布，它将语言、图像、视频、音频和动作统一在一种混合 Transformer 架构 (https://x.com/victormustar/status/2061354267546427595?s=20) 中，该架构将自回归推理器与扩散生成器配对使用：

基础版 Nano（16B：8B 推理器塔 + 8B 生成器塔）
Super（64B：32B 推理器塔 + 32B 生成器塔）模型，以及
针对文生图和图生视频的 Super 微调版本，这些现已成为新的 SOTA 开源权重图像生成和视频生成模型 (https://x.com/ArtificialAnlys/status/2061494719998546206?s=20)，仅次于 Nano Banana 2 (https://x.com/victormustar/status/2061354267546427595?s=20)

X 头像 — @liu_mingyu Ming-Yu Liu@liu_mingyu 介绍 NVIDIA Cosmos 3 我们昨晚发布了 NVIDIA Cosmos 3。而今天，看到它在 8 个以上的开源模型排行榜上占据榜首位置，感觉很不真实。我们为此付出了数月的努力。以下是详细情况：排行榜胜出情况世界推理 🏆 #1 开源 7:10 PM · 2026年6月1日·15.6K 次浏览 10 条回复·39 次转帖·225 个赞 (https://x.com/liu_mingyu/status/2061525730996240738)在台北 Computex 展会上，黄仁勋还带来了 Nemotron 3 Ultra (https://x.com/NVIDIAAI/status/2061495149872771568/photo/1)，这是一款 550B 参数、仅激活 55B 参数、效率极高/速度极快 (https://x.com/ArtificialAnlys/status/2061304911565144230?s=20) 的开源权重 LLM，成为美国最新的 SOTA：

图片 (https://substackcdn.com/image/fetch/$s_!5bzA!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff6685277-4569-4135-92cb-e7a645246125_4096x2732.jpeg) 最后，RTX Spark 个人计算机（1 petaflop 超级芯片）与 Microsoft (https://x.com/satyanadella/status/2061315017589600699)、OpenClaw (https://x.com/openclaw/status/2061331260279054801?s=20) 和 Hermes Agent (https://x.com/NousResearch/status/2061323987804713083?s=20) 作为启动合作伙伴进行了预览（此处有良好分析 (https://x.com/PatrickMoorhead/status/2061452151944274167)）

X 头像 — @NVIDIARTXSpark NVIDIA RTX Spark@NVIDIARTXSpark RTX Spark，早期预览 👀 个人 AI 代理。更快的创作者工作流。支持 RTX 的游戏体验。NVIDIA 的 Jacob Freeman 展示了一块超级芯片如何在新款轻薄笔记本类别中整合这一切。👇 6:05 PM · 2026年6月1日·93K 次浏览 42 条回复·178 次转帖·1.66K 个赞 (https://x.com/NVIDIARTXSpark/status/2061509361470497138?s=20)> AI 新闻，涵盖 2026年5月30日至6月1日。我们检查了 12 个子版块、544 个 Twitter 账号 (https://twitter.com/i/lists/1585430245762441216)，没有更多 Discord 频道。AINews 网站 (https://news.smol.ai/) 允许搜索所有过往期刊。提醒：AINews 现在是 Latent Space (https://www.latent.space/p/2026) 的一部分。您可以选择 (https://support.substack.com/hc/en-us/articles/8914938285204-How-do-I-subscribe-to-or-unsubscribe-from-a-section-on-Substack) 接收邮件的频率！

NVIDIA 的 Cosmos 3、Nemotron 3 Ultra 以及推动开放物理 AI 的势头

NVIDIA 的开源周：NVIDIA 以 Cosmos 3 主导了开源模型的讨论，这是一个面向物理 AI 的全模态世界模型开放系列，同时还宣布了 Nemotron 3 Ultra，这是一个 550B 参数的开源权重模型，多位发帖者称其为迄今最强的美国开源模型。Cosmos 3 被定位为全栈发布——权重、代码、数据集和微调配方——NVIDIA 还与包括 Runway 在内的合作伙伴共同推出了 Cosmos 联盟，旨在为世界模型构建开放生态系统 @NVIDIAAI 生态系统背景 (https://x.com/NVIDIAAI/status/2061498958283968735)，@runwayml 联盟公告 (https://x.com/runwayml/status/2061315089869721682)，@kimmonismus Cosmos 讨论串 (https://x.com/kimmonismus/status/2061432501223162241)，@ClementDelangue 关于 NVIDIA 在 HF 上的足迹 (https://x.com/ClementDelangue/status/2061487081315094906)。
Cosmos 3 在技术上的重要性：除了机器人技术方面的言辞，更具体的细节是 Cosmos 3 将语言、图像、视频、音频和动作统一在单一的混合 Transformer 设计中，该设计将自回归推理器与扩散生成器配对。Artificial Analysis (https://x.com/ArtificialAnlys/status/2061494719998546206) 称 Cosmos 3 在其文生图和图生视频排行榜上均达到开源权重模型第一名，并指出生成器使用结构化的 JSON 提示，可以通过外部提示升采样框架或其自身的推理器分支来驱动。此外，NVIDIA 的软硬件整合推进延伸到采用 OpenMDW 框架，并在 fal 等平台上集成合作伙伴生态系统 @ArtificialAnlys (https://x.com/ArtificialAnlys/status/2061494719998546206)，@fal (https://x.com/fal/status/2061604121786876307)。
Nemotron 3 Ultra 的反响：社区对 Nemotron 3 Ultra 的反应对于新发布的开源模型来说异常强烈。发帖者强调其能力和服务特性，包括声称它已经登顶某些开源评测，并且在某些设置下可能以 300+ tok/s 的速度提供服务——远快于大型 DeepSeek/Kimi 类模型 @scaling01 (https://x.com/scaling01/status/2061379856433107135)，@ctnzr (https://x.com/ctnzr/status/2061483152741175757)，@caspar_br (https://x.com/caspar_br/status/2061505720907182280)。还有一些技术讨论指出，Nemotron 似乎比 Kimi K2 / DeepSeek V4 等同类模型稀疏度更低——大约 ~10% 激活 vs ~3%——这可能影响其经济性和行为 @eliebakouch (https://x.com/eliebakouch/status/2061607195268038777)。

MiniMax M3、Qwen3.7-Plus 和 JetBrains Mellum2 扩展了开放智能体模型领域

MiniMax M3 发布是本日最大的模型发布：M3 被定位为开源权重的多模态智能体/编程模型，具有 1M 上下文、原生多模态以及有竞争力的智能体基准测试。启动合作伙伴中重复出现的重点数据是 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1 和 74.2% MCP Atlas @MiniMax_AI (https://x.com/MiniMax_AI/status/2061425142795034794)，@PBDTokenRouter (https://x.com/PBDTokenRouter/status/2061463048485838935)，@kimmonismus (https://x.com/kimmonismus/status/2061473350766170420)。多家基础设施供应商提供了首发支持——Novita、Vercel AI Gateway、Cloudflare AI Gateway、OpenClaude、Flowith 等——表明生态系统采用速度异常迅速 @MiniMax_AI on Novita (https://x.com/MiniMax_AI/status/2061398427121201648)，@rauchg (https://x.com/rauchg/status/2061593874498531707)，@gitlawb (https://x.com/gitlawb/status/2061581678871806083)。
基准测试与实际体验参差不齐：M3 在前端生成、视觉/游戏任务以及性价比方面获得好评，并排演示显示其在一次性 UI/游戏输出方面表现出色，并且在 Next.js 智能体评测中占据显著位置 @notjazii (https://x.com/notjazii/status/2061407087293313210)，@lostinlatencyX (https://x.com/lostinlatencyX/status/2061409696649548165)，@rauchg (https://x.com/rauchg/status/2061593874498531707)。但几位评估者也报告了高 token 消耗、冗长的自我检查循环以及长时间任务中偶尔出现的需求偏移，这使得 M3 看起来更像是一个“质量优先，效率其次”的模型 @ZhihuFrontier 评测 (https://x.com/ZhihuFrontier/status/2061493401019957337)，@teortaxesTex 质疑 (https://x.com/teortaxesTex/status/2061432151183171702)。
Qwen3.7-Plus：阿里巴巴发布了 Qwen3.7-Plus，作为一个多模态交互式混合智能体，它统一了 GUI 和 CLI 操作、视觉推理、编程和搜索增强的问答。它通过阿里云百炼平台提供 API，并迅速被添加到 Cline 等工具中 @Alibaba_Qwen 发布 (https://x.com/Alibaba_Qwen/status/2061506641120641494)，@cline (https://x.com/cline/status/2061580233778790439)。此次发布强化了一个趋势：开放式的亚洲实验室不再发布“仅聊天模型”，而是发布完整的具备智能体能力的多模态系统。
JetBrains Mellum2：JetBrains 发布了 Mellum2，这是一个 12B MoE 模型，具有 2.5B 激活参数，在大约 11T tokens 上训练，并通过 RLVR 进行后训练，发布了基础 / SFT / RL 检查点以及一份技术报告 @nv_pavlichenko (https://x.com/nv_pavlichenko/status/2061438808290172935)，@jetbrains (https://x.com/jetbrains/status/2061444430884675791)。其目标定位尤其有趣：用于路由、RAG、子智能体和 IDE 使用的超低延迟推理，并且立即被集成到 vLLM 中 @vllm_project (https://x.com/vllm_project/status/2061621691995005301#m)。这看起来是一个严肃的“面向开发者工作流的快速小型开放模型”战略，而非追逐基准测试的前沿发布。

智能体、沙箱、内存和搜索正成为真正的产品界面

技术栈正从模型调用转向智能体运行时：多项发布聚焦于一个观点，即主要的工程杠杆现在在于框架而非模型本身。Perplexity 的“Search as Code” 是最明显的例子：模型不再进行迭代式搜索工具调用，而是编写 Python 代码，针对搜索 SDK 进行开发，从而实现自定义排序流程、跨索引的 map-reduce、批处理、聚合以及更低的 token 开销。Perplexity 报告称，其内部 WANDR 基准测试借助该架构从 0.152 跃升至 0.386 @perplexity_ai (https://x.com/perplexity_ai/status/2061506359326384319)，@AravSrinivas (https://x.com/AravSrinivas/status/2061575845056278971)。
托管智能体和沙箱正成为标准：谷歌详细介绍了 Gemini API 中的托管智能体，只需一次 API 调用即可启动一个能够推理、编写/运行代码、管理文件并在托管 Linux 沙箱 内操作的智能体 @_philschmid (https://x.com/_philschmid/status/2061457703210197273)，@GoogleAIStudio (https://x.com/GoogleAIStudio/status/2061452967530701090)。LangChain 也在 Deep Agents、Context Hub 和 LangSmith Sandboxes/Engine 方面推广类似理念，强调持久上下文、智能体生命周期工具和自动故障分类 @LangChain (https://x.com/LangChain/status/2061432934993674267)，@hwchase17 (https://x.com/hwchase17/status/2061496556608504043)。
内存仍然是一个缺失的原语：一个反复出现的抱怨是，巨大的上下文窗口仍然无法解决跨会话内存问题。关于 HydraDB 的一个讨论串认为，“RAG + 手动上下文注入”被误称为内存，而实际的持久化会话知识仍然服务不足 @kimmonismus (https://x.com/kimmonismus/status/2061454202883432501)。相关的研究方向指向可重用的上下文管理策略，例如 AdaCoM，它通过强化学习训练一个单独的 LLM 来修剪/保留冻结智能体的上下文 @dair_ai (https://x.com/dair_ai/status/2061455253325971789)。
安全仍然是企业智能体的关键瓶颈：微软安全情报部门发出了一个值得注意的警告，涉及一次重大的 npm 供应链攻击，影响了 90 多个 redhat-cloud-services 软件包，其中包括一个窃取 npm/GitHub/AWS/SSH 凭证的自传播蠕虫 @MsftSecIntel (https://x.com/MsftSecIntel/status/2061485730958848188)。与此同时，企业智能体供应商强调沙箱、运行时隔离和安全栈集成是部署的先决条件，包括对 NVIDIA OpenShell 和 LangChain 沙箱主题演讲的讨论 @shannholmberg (https://x.com/shannholmberg/status/2061368566256189656)，@LangChain (https://x.com/LangChain/status/2061448130806116827)。

Codex、Claude Code 以及竞争激烈的编程智能体竞赛

OpenAI 将 Codex 扩展到更多地方：OpenAI 宣布前沿模型和 Codex 现已在 AWS / Amazon Bedrock 上普遍可用，目标是那些希望将 OpenAI 的能力融入现有 AWS 安全/合规工作流的企业 @OpenAI (https://x.com/OpenAI/status/2061564502160892138)，@OpenAIDevs (https://x.com/OpenAIDevs/status/2061564710173224985)。OpenAI 还发布了Codex Python SDK，支持线程、回合、流式传输、恢复、图像和沙箱控制 @reach_vb (https://x.com/reach_vb/status/2061569472792572163)，以及对 Bedrock 支持的 Codex 工作流支持 @reach_vb on Bedrock config (https://x.com/reach_vb/status/2061572961451094191)。
Claude Code 发生了一起实际运维事故：Anthropic 在修复一个 bug（该 bug 导致某些 Opus 4.8 会话产生过多并行子智能体/工具调用，意外消耗使用量）后，重置了 Pro 和 Max 用户的5 小时和周速率限制 @ClaudeDevs (https://x.com/ClaudeDevs/status/2061501787769893055)，后续 (https://x.com/ClaudeDevs/status/2061501790131265803)。这是一个显著的提醒：编程智能体产品的质量越来越由编排行为决定，而不仅仅是原始模型 IQ。
不同编程模型之间的行为差异仍然显著：开发者强调了 GPT、Claude 与其他模型在 ProgramBench 和 WeirdML 等基准测试上的巨大定性差异，Opus 有时倾向于探索而非得分最大化，或表现出特定基准测试的特有怪癖 @OfirPress (https://x.com/OfirPress/status/2061458258821251081)，@htihle (https://x.com/htihle/status/2061412097720774679)。另一个长篇讨论串指出，较新的 Claude Opus 4.6–4.8 变体在非编程领域可能编造看似合理但虚构的概念，这暗示了可能存在真实性/对齐性退化，而非普通的幻觉 @distributionat (https://x.com/distributionat/status/2061362406971060244)。

基础设施、硬件和本地 AI 系统

NVIDIA 正进军个人电脑市场：最受关注的硬件发布是 RTX Spark，这是一款由 NVIDIA/微软打造的“个人 AI 计算机”，基于 Grace + Blackwell 架构，拥有高达 128GB 统一内存，并声称有 1 PFLOP FP4 算力。关键的战略解读：NVIDIA 不再仅仅销售加速器，而是提供一款端到端的本地 AI 系统，同时与 Apple Silicon、x86 PC 和高通竞争 @kimmonismus (https://x.com/kimmonismus/status/2061484174088007739)，@swyx (https://x.com/swyx/status/2061567877879369953)。
集群/网络更新：在数据中心方面，Lambda 称其率先采用 NVIDIA Quantum-X InfiniBand Photonics Q3450-LD 交换机，通过共封装光学器件来减少大型 AI 集群中的网络功耗和故障 @LambdaAPI (https://x.com/LambdaAPI/status/2061319330433032658)。OpenAI 还宣布了 Stargate Michigan，这是一个计划中的 1GW 数据中心，采用闭环冷却，并配合劳动力和教育方面的承诺 @OpenAINewsroom (https://x.com/OpenAINewsroom/status/2061533639138316314)。
本地开源模型工具链改进迅速：MLX-VLM v0.6.0 版本是较为实质性的本地推理/工具更新之一，增加了投机解码、Anthropic 风格和 responses 风格 API、工具调用、对许多新多模态模型的支持，以及图像/音频功能，明确目标是将 Apple 设备变成“真正的本地智能体机器” @Prince_Canuma (https://x.com/Prince_Canuma/status/2061541992790683726)。这与日益增长的 DGX Spark + vLLM 实验相结合，用于本地 NVFP4 MoE 服务 @vllm_project (https://x.com/vllm_project/status/2061530659160838549)。

热门推文（按互动排名，过滤技术相关性）

Anthropic 的 IPO 路径：Anthropic 表示已向美国证券交易委员会秘密提交了 S-1 表格草稿，为等待审查后的 IPO 打开了大门 @AnthropicAI (https://x.com/AnthropicAI/status/2061478052257841495)。
Claude Code 使用事故：Anthropic 重置了用户速率

@swyx: 链接汇总：

[AINews] NVIDIA Cosmos 3、Nemotron 3 Ultra 和 RTX Spark

相似文章

NVIDIA 刚刚宣布发布 Nemotron 3 Ultra（2分钟阅读）

@MichaelGannotti: https://x.com/MichaelGannotti/status/2074486390432149979

@cwolferesearch: 开放技术报告/成果非常有价值。我目前正在阅读所有Nemotron的技术报告，它们…

"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"

首个完全自主的LLM代理网络攻击被记录……NVIDIA与微软发布“RTX Spark”超级芯片

提交意见反馈