@swyx: 链接汇总:
摘要
NVIDIA 发布 Cosmos 3(混合 Transformer 模型,参数最高达 64B)、Nemotron 3 Ultra(550B-A55B 大语言模型),并在 Computex 2026 上预览了 RTX Spark 个人超级芯片,在多个开源模型排行榜上达到 SOTA。
查看缓存全文
缓存时间: 2026/06/02 03:41
@Microsoft @nvidia 链接汇总:https://t.co/52cazFXk1f
[AINews] NVIDIA Cosmos 3、Nemotron 3 Ultra 和 RTX Spark
来源:https://www.latent.space/p/ainews-nvidia-cosmos-3-nemotron-3 今天的播客嘉宾 (https://www.latent.space/p/video-agents) 一年多前曾领导 NVIDIA Cosmos 项目,讨论了视频生成和世界模型的训练。恰如其分的是,Cosmos 3 今天正式发布,它将语言、图像、视频、音频和动作统一在一种混合 Transformer 架构 (https://x.com/victormustar/status/2061354267546427595?s=20) 中,该架构将自回归推理器与扩散生成器配对使用:
- 基础版 Nano(16B:8B 推理器塔 + 8B 生成器塔)
- Super(64B:32B 推理器塔 + 32B 生成器塔)模型,以及
- 针对文生图和图生视频的 Super 微调版本,这些现已成为新的 SOTA 开源权重图像生成和视频生成模型 (https://x.com/ArtificialAnlys/status/2061494719998546206?s=20),仅次于 Nano Banana 2 (https://x.com/victormustar/status/2061354267546427595?s=20)
X 头像 — @liu_mingyu Ming-Yu Liu@liu_mingyu 介绍 NVIDIA Cosmos 3 我们昨晚发布了 NVIDIA Cosmos 3。而今天,看到它在 8 个以上的开源模型排行榜上占据榜首位置,感觉很不真实。我们为此付出了数月的努力。以下是详细情况:排行榜胜出情况 世界推理 🏆 #1 开源 7:10 PM · 2026年6月1日·15.6K 次浏览 10 条回复·39 次转帖·225 个赞 (https://x.com/liu_mingyu/status/2061525730996240738)在台北 Computex 展会上,黄仁勋还带来了 Nemotron 3 Ultra (https://x.com/NVIDIAAI/status/2061495149872771568/photo/1),这是一款 550B 参数、仅激活 55B 参数、效率极高/速度极快 (https://x.com/ArtificialAnlys/status/2061304911565144230?s=20) 的开源权重 LLM,成为美国最新的 SOTA:
图片 (https://substackcdn.com/image/fetch/$s_!5bzA!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff6685277-4569-4135-92cb-e7a645246125_4096x2732.jpeg) 最后,RTX Spark 个人计算机(1 petaflop 超级芯片)与 Microsoft (https://x.com/satyanadella/status/2061315017589600699)、OpenClaw (https://x.com/openclaw/status/2061331260279054801?s=20) 和 Hermes Agent (https://x.com/NousResearch/status/2061323987804713083?s=20) 作为启动合作伙伴进行了预览(此处有良好分析 (https://x.com/PatrickMoorhead/status/2061452151944274167))
X 头像 — @NVIDIARTXSpark NVIDIA RTX Spark@NVIDIARTXSpark RTX Spark,早期预览 👀 个人 AI 代理。更快的创作者工作流。支持 RTX 的游戏体验。NVIDIA 的 Jacob Freeman 展示了一块超级芯片如何在新款轻薄笔记本类别中整合这一切。👇 6:05 PM · 2026年6月1日·93K 次浏览 42 条回复·178 次转帖·1.66K 个赞 (https://x.com/NVIDIARTXSpark/status/2061509361470497138?s=20)> AI 新闻,涵盖 2026年5月30日至6月1日。我们检查了 12 个子版块、544 个 Twitter 账号 (https://twitter.com/i/lists/1585430245762441216),没有更多 Discord 频道。AINews 网站 (https://news.smol.ai/) 允许搜索所有过往期刊。提醒:AINews 现在是 Latent Space (https://www.latent.space/p/2026) 的一部分。您可以选择 (https://support.substack.com/hc/en-us/articles/8914938285204-How-do-I-subscribe-to-or-unsubscribe-from-a-section-on-Substack) 接收邮件的频率!
NVIDIA 的 Cosmos 3、Nemotron 3 Ultra 以及推动开放物理 AI 的势头
- NVIDIA 的开源周:NVIDIA 以 Cosmos 3 主导了开源模型的讨论,这是一个面向物理 AI 的全模态世界模型开放系列,同时还宣布了 Nemotron 3 Ultra,这是一个 550B 参数的开源权重模型,多位发帖者称其为迄今最强的美国开源模型。Cosmos 3 被定位为全栈发布——权重、代码、数据集和微调配方——NVIDIA 还与包括 Runway 在内的合作伙伴共同推出了 Cosmos 联盟,旨在为世界模型构建开放生态系统 @NVIDIAAI 生态系统背景 (https://x.com/NVIDIAAI/status/2061498958283968735),@runwayml 联盟公告 (https://x.com/runwayml/status/2061315089869721682),@kimmonismus Cosmos 讨论串 (https://x.com/kimmonismus/status/2061432501223162241),@ClementDelangue 关于 NVIDIA 在 HF 上的足迹 (https://x.com/ClementDelangue/status/2061487081315094906)。
- Cosmos 3 在技术上的重要性:除了机器人技术方面的言辞,更具体的细节是 Cosmos 3 将语言、图像、视频、音频和动作统一在单一的混合 Transformer 设计中,该设计将自回归推理器与扩散生成器配对。Artificial Analysis (https://x.com/ArtificialAnlys/status/2061494719998546206) 称 Cosmos 3 在其文生图和图生视频排行榜上均达到开源权重模型第一名,并指出生成器使用结构化的 JSON 提示,可以通过外部提示升采样框架或其自身的推理器分支来驱动。此外,NVIDIA 的软硬件整合推进延伸到采用 OpenMDW 框架,并在 fal 等平台上集成合作伙伴生态系统 @ArtificialAnlys (https://x.com/ArtificialAnlys/status/2061494719998546206),@fal (https://x.com/fal/status/2061604121786876307)。
- Nemotron 3 Ultra 的反响:社区对 Nemotron 3 Ultra 的反应对于新发布的开源模型来说异常强烈。发帖者强调其能力和服务特性,包括声称它已经登顶某些开源评测,并且在某些设置下可能以 300+ tok/s 的速度提供服务——远快于大型 DeepSeek/Kimi 类模型 @scaling01 (https://x.com/scaling01/status/2061379856433107135),@ctnzr (https://x.com/ctnzr/status/2061483152741175757),@caspar_br (https://x.com/caspar_br/status/2061505720907182280)。还有一些技术讨论指出,Nemotron 似乎比 Kimi K2 / DeepSeek V4 等同类模型稀疏度更低——大约 ~10% 激活 vs ~3%——这可能影响其经济性和行为 @eliebakouch (https://x.com/eliebakouch/status/2061607195268038777)。
MiniMax M3、Qwen3.7-Plus 和 JetBrains Mellum2 扩展了开放智能体模型领域
- MiniMax M3 发布是本日最大的模型发布:M3 被定位为开源权重的多模态智能体/编程模型,具有 1M 上下文、原生多模态以及有竞争力的智能体基准测试。启动合作伙伴中重复出现的重点数据是 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1 和 74.2% MCP Atlas @MiniMax_AI (https://x.com/MiniMax_AI/status/2061425142795034794),@PBDTokenRouter (https://x.com/PBDTokenRouter/status/2061463048485838935),@kimmonismus (https://x.com/kimmonismus/status/2061473350766170420)。多家基础设施供应商提供了首发支持——Novita、Vercel AI Gateway、Cloudflare AI Gateway、OpenClaude、Flowith 等——表明生态系统采用速度异常迅速 @MiniMax_AI on Novita (https://x.com/MiniMax_AI/status/2061398427121201648),@rauchg (https://x.com/rauchg/status/2061593874498531707),@gitlawb (https://x.com/gitlawb/status/2061581678871806083)。
- 基准测试与实际体验参差不齐:M3 在前端生成、视觉/游戏任务以及性价比方面获得好评,并排演示显示其在一次性 UI/游戏输出方面表现出色,并且在 Next.js 智能体评测中占据显著位置 @notjazii (https://x.com/notjazii/status/2061407087293313210),@lostinlatencyX (https://x.com/lostinlatencyX/status/2061409696649548165),@rauchg (https://x.com/rauchg/status/2061593874498531707)。但几位评估者也报告了高 token 消耗、冗长的自我检查循环以及长时间任务中偶尔出现的需求偏移,这使得 M3 看起来更像是一个“质量优先,效率其次”的模型 @ZhihuFrontier 评测 (https://x.com/ZhihuFrontier/status/2061493401019957337),@teortaxesTex 质疑 (https://x.com/teortaxesTex/status/2061432151183171702)。
- Qwen3.7-Plus:阿里巴巴发布了 Qwen3.7-Plus,作为一个多模态交互式混合智能体,它统一了 GUI 和 CLI 操作、视觉推理、编程和搜索增强的问答。它通过阿里云百炼平台提供 API,并迅速被添加到 Cline 等工具中 @Alibaba_Qwen 发布 (https://x.com/Alibaba_Qwen/status/2061506641120641494),@cline (https://x.com/cline/status/2061580233778790439)。此次发布强化了一个趋势:开放式的亚洲实验室不再发布“仅聊天模型”,而是发布完整的具备智能体能力的多模态系统。
- JetBrains Mellum2:JetBrains 发布了 Mellum2,这是一个 12B MoE 模型,具有 2.5B 激活参数,在大约 11T tokens 上训练,并通过 RLVR 进行后训练,发布了基础 / SFT / RL 检查点以及一份技术报告 @nv_pavlichenko (https://x.com/nv_pavlichenko/status/2061438808290172935),@jetbrains (https://x.com/jetbrains/status/2061444430884675791)。其目标定位尤其有趣:用于路由、RAG、子智能体和 IDE 使用的超低延迟推理,并且立即被集成到 vLLM 中 @vllm_project (https://x.com/vllm_project/status/2061621691995005301#m)。这看起来是一个严肃的“面向开发者工作流的快速小型开放模型”战略,而非追逐基准测试的前沿发布。
智能体、沙箱、内存和搜索正成为真正的产品界面
- 技术栈正从模型调用转向智能体运行时:多项发布聚焦于一个观点,即主要的工程杠杆现在在于框架而非模型本身。Perplexity 的“Search as Code” 是最明显的例子:模型不再进行迭代式搜索工具调用,而是编写 Python 代码,针对搜索 SDK 进行开发,从而实现自定义排序流程、跨索引的 map-reduce、批处理、聚合以及更低的 token 开销。Perplexity 报告称,其内部 WANDR 基准测试借助该架构从 0.152 跃升至 0.386 @perplexity_ai (https://x.com/perplexity_ai/status/2061506359326384319),@AravSrinivas (https://x.com/AravSrinivas/status/2061575845056278971)。
- 托管智能体和沙箱正成为标准:谷歌详细介绍了 Gemini API 中的托管智能体,只需一次 API 调用即可启动一个能够推理、编写/运行代码、管理文件并在托管 Linux 沙箱 内操作的智能体 @_philschmid (https://x.com/_philschmid/status/2061457703210197273),@GoogleAIStudio (https://x.com/GoogleAIStudio/status/2061452967530701090)。LangChain 也在 Deep Agents、Context Hub 和 LangSmith Sandboxes/Engine 方面推广类似理念,强调持久上下文、智能体生命周期工具和自动故障分类 @LangChain (https://x.com/LangChain/status/2061432934993674267),@hwchase17 (https://x.com/hwchase17/status/2061496556608504043)。
- 内存仍然是一个缺失的原语:一个反复出现的抱怨是,巨大的上下文窗口仍然无法解决跨会话内存问题。关于 HydraDB 的一个讨论串认为,“RAG + 手动上下文注入”被误称为内存,而实际的持久化会话知识仍然服务不足 @kimmonismus (https://x.com/kimmonismus/status/2061454202883432501)。相关的研究方向指向可重用的上下文管理策略,例如 AdaCoM,它通过强化学习训练一个单独的 LLM 来修剪/保留冻结智能体的上下文 @dair_ai (https://x.com/dair_ai/status/2061455253325971789)。
- 安全仍然是企业智能体的关键瓶颈:微软安全情报部门发出了一个值得注意的警告,涉及一次重大的 npm 供应链攻击,影响了 90 多个 redhat-cloud-services 软件包,其中包括一个窃取 npm/GitHub/AWS/SSH 凭证的自传播蠕虫 @MsftSecIntel (https://x.com/MsftSecIntel/status/2061485730958848188)。与此同时,企业智能体供应商强调沙箱、运行时隔离和安全栈集成是部署的先决条件,包括对 NVIDIA OpenShell 和 LangChain 沙箱主题演讲的讨论 @shannholmberg (https://x.com/shannholmberg/status/2061368566256189656),@LangChain (https://x.com/LangChain/status/2061448130806116827)。
Codex、Claude Code 以及竞争激烈的编程智能体竞赛
- OpenAI 将 Codex 扩展到更多地方:OpenAI 宣布前沿模型和 Codex 现已在 AWS / Amazon Bedrock 上普遍可用,目标是那些希望将 OpenAI 的能力融入现有 AWS 安全/合规工作流的企业 @OpenAI (https://x.com/OpenAI/status/2061564502160892138),@OpenAIDevs (https://x.com/OpenAIDevs/status/2061564710173224985)。OpenAI 还发布了Codex Python SDK,支持线程、回合、流式传输、恢复、图像和沙箱控制 @reach_vb (https://x.com/reach_vb/status/2061569472792572163),以及对 Bedrock 支持的 Codex 工作流支持 @reach_vb on Bedrock config (https://x.com/reach_vb/status/2061572961451094191)。
- Claude Code 发生了一起实际运维事故:Anthropic 在修复一个 bug(该 bug 导致某些 Opus 4.8 会话产生过多并行子智能体/工具调用,意外消耗使用量)后,重置了 Pro 和 Max 用户的5 小时和周速率限制 @ClaudeDevs (https://x.com/ClaudeDevs/status/2061501787769893055),后续 (https://x.com/ClaudeDevs/status/2061501790131265803)。这是一个显著的提醒:编程智能体产品的质量越来越由编排行为决定,而不仅仅是原始模型 IQ。
- 不同编程模型之间的行为差异仍然显著:开发者强调了 GPT、Claude 与其他模型在 ProgramBench 和 WeirdML 等基准测试上的巨大定性差异,Opus 有时倾向于探索而非得分最大化,或表现出特定基准测试的特有怪癖 @OfirPress (https://x.com/OfirPress/status/2061458258821251081),@htihle (https://x.com/htihle/status/2061412097720774679)。另一个长篇讨论串指出,较新的 Claude Opus 4.6–4.8 变体在非编程领域可能编造看似合理但虚构的概念,这暗示了可能存在真实性/对齐性退化,而非普通的幻觉 @distributionat (https://x.com/distributionat/status/2061362406971060244)。
基础设施、硬件和本地 AI 系统
- NVIDIA 正进军个人电脑市场:最受关注的硬件发布是 RTX Spark,这是一款由 NVIDIA/微软打造的“个人 AI 计算机”,基于 Grace + Blackwell 架构,拥有高达 128GB 统一内存,并声称有 1 PFLOP FP4 算力。关键的战略解读:NVIDIA 不再仅仅销售加速器,而是提供一款端到端的本地 AI 系统,同时与 Apple Silicon、x86 PC 和高通竞争 @kimmonismus (https://x.com/kimmonismus/status/2061484174088007739),@swyx (https://x.com/swyx/status/2061567877879369953)。
- 集群/网络更新:在数据中心方面,Lambda 称其率先采用 NVIDIA Quantum-X InfiniBand Photonics Q3450-LD 交换机,通过共封装光学器件来减少大型 AI 集群中的网络功耗和故障 @LambdaAPI (https://x.com/LambdaAPI/status/2061319330433032658)。OpenAI 还宣布了 Stargate Michigan,这是一个计划中的 1GW 数据中心,采用闭环冷却,并配合劳动力和教育方面的承诺 @OpenAINewsroom (https://x.com/OpenAINewsroom/status/2061533639138316314)。
- 本地开源模型工具链改进迅速:MLX-VLM v0.6.0 版本是较为实质性的本地推理/工具更新之一,增加了投机解码、Anthropic 风格和 responses 风格 API、工具调用、对许多新多模态模型的支持,以及图像/音频功能,明确目标是将 Apple 设备变成“真正的本地智能体机器” @Prince_Canuma (https://x.com/Prince_Canuma/status/2061541992790683726)。这与日益增长的 DGX Spark + vLLM 实验相结合,用于本地 NVFP4 MoE 服务 @vllm_project (https://x.com/vllm_project/status/2061530659160838549)。
热门推文(按互动排名,过滤技术相关性)
- Anthropic 的 IPO 路径:Anthropic 表示已向美国证券交易委员会秘密提交了 S-1 表格草稿,为等待审查后的 IPO 打开了大门 @AnthropicAI (https://x.com/AnthropicAI/status/2061478052257841495)。
- Claude Code 使用事故:Anthropic 重置了用户速率
相似文章
NVIDIA 刚刚宣布发布 Nemotron 3 Ultra(2分钟阅读)
Anthropic 发布了其最智能的模型 Claude Opus 4.5,在 Artificial Analysis Intelligence Index 上获得 70 分,仅次于 Gemini 3 Pro。该模型在编码和智能体任务方面取得了显著进步,同时降低了每个token的价格,并保持了强劲的安全性能。
首个完全自主的LLM代理网络攻击被记录……NVIDIA与微软发布“RTX Spark”超级芯片
NVIDIA在GTC台北大会上推出了RTX Spark超级芯片,专为本地AI代理设计,拥有1 petaflop性能和128GB统一内存,并得到微软和Adobe的支持。此外,Sysdig记录了首个完全自主、无需任何人工干预的LLM代理网络攻击。
@ClementDelangue:最近Nvidia(美国开源AI之王)做了很多出色的工作!——跨越了1,000个公共仓库……
Nvidia在Hugging Face上突破了1,000个公共仓库,展示了热门模型,并宣布了Cosmos 3、Alphamayo 2 Super、Nemotron 3/4的计划以及采用OpenMDW框架,凸显了其在开源AI领域的领导地位。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
@FinanceYF5: 来源:
英伟达宣布将于本周发布Nemotron 3 Ultra。