@victormustar: 在本周结束之前,让我们回顾一下开放AI领域最疯狂的一周,发布了超过25个引人注目的开放权重模型…

X AI KOLs Following 新闻

摘要

本周开放AI领域异常精彩,发布了超过25个开放权重模型,涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域,NVIDIA、Google等机构贡献突出。

在本周结束之前,让我们承认这是开放AI领域最为疯狂的一周之一,超过25个引人注目的开放权重模型发布,覆盖了所有模态: 大语言模型 → NVIDIA Nemotron 3 Ultra: 550B 混合 Mamba-MoE,仅55B活跃参数,1M上下文,MMLU 89.1。NVFP4变体声称在Blackwell上实现约5倍吞吐量。首个开放权重的550B混合Mamba-Transformer,缩小了与前沿闭源模型的差距。 → Google Gemma 4 12B: 完全开放的稠密任意模态模型(文本/图像/音频/视频),256k上下文,无编码器,支持140+语言,AIME 2026得分77.5。随附23个检查点的QAT浪潮(移动端ONNX + MLX)。本周最具可部署性的模型。 → StepFun Step-3.7-Flash: 198B稀疏MoE视觉语言模型,约11B活跃参数,SWE-Bench PRO 56.3。Apache 2.0许可。 → Liquid AI LFM2.5-8B-A1B: 边缘MoE,仅1.5B活跃参数,128k上下文,MATH500 88.8,兼容MLX。本周最佳设备端选项。 → JetBrains Mellum2-12B-A2.5B-Thinking: 其首个开放MoE,2.5B活跃参数下接近Qwen3-14B的编码能力。Apache 2.0许可。 图像生成(本周的惊喜) → Ideogram 4: 首次开放权重!9.3B 流匹配 DiT,从零训练。综合排名第二,仅次于GPT Image 2,在Design Arena和LMArena上排名最高的开放权重模型。文本丰富图像的最强开放检查点,没有之一。它很有品味。至今仍不敢相信这是开放权重。 音频与语音(开放TTS的突破周,4个实验室发布) → Boson Higgs Audio v3 4B: 102种语言,21种情感,可歌唱/低语/喊叫,亚秒级TTFA。 → 小红书 dots.tts: 唯一完全连续(无编解码器)的开放TTS流水线,Apache 2.0许可。 → Google Magenta RealTime 2: 实时音乐生成,延迟<200ms,支持文本+音频+MIDI。multimodalart在数小时内将其移植到PyTorch,并提供实时ZeroGPU演示。 → NVIDIA Nemotron-3.5 ASR: 6亿参数流式模型,并发流数量是Parakeet RNNT 1.1B的17倍。 视觉与视觉语言模型 → PaddleOCR-VL-1.6: 10亿参数下的文档解析SOTA,Apache 2.0许可。 → 百度 NAVA: 6.3B 联合音频-视频生成,行业领先的影音同步,Apache 2.0许可。 视频、3D与世界模型 → NVIDIA Cosmos3-Super: 64B 全模态世界模型,将动作轨迹与视频+音频生成耦合,用于物理AI。 → 京东 JoyAI-Echo: 在LTX-2.3上实现最长5分钟的多镜头文本到视频。 → 字节跳动 Bernini-R + VAST TripoSplat(单图像到3D高斯泼溅,MIT许可)。
查看原文
查看缓存全文

缓存时间: 2026/06/05 23:21

在本周结束前,让我们回顾一下 OpenAI 史上最疯狂的一周之一——超过 25 个显著的开源权重发布,覆盖所有模态:

LLM

→ NVIDIA Nemotron 3 Ultra:550B 混合 Mamba-MoE,仅 55B 激活参数,1M 上下文,MMLU 89.1。NVFP4 变体在 Blackwell 上吞吐量提升约 5 倍。首个公开权重的 550B 混合 Mamba-Transformer,缩小了与前沿闭源模型的差距。

→ Google Gemma 4 12B:完全开放的全能模型(文本/图像/音频/视频),256k 上下文,无编码器,支持 140+ 语言,AIME 2026 得分 77.5。附带 23 个检查点的 QAT 系列(移动端 ONNX + MLX)。本周最具部署友好性的模型。

→ StepFun Step-3.7-Flash:198B 稀疏 MoE VLM,约 11B 激活参数,SWE-Bench PRO 56.3。Apache 2.0 许可。

→ Liquid AI LFM2.5-8B-A1B:边缘 MoE,仅 1.5B 激活参数,128k 上下文,MATH500 88.8,支持 MLX。本周最佳端侧选项。

→ JetBrains Mellum2-12B-A2.5B-Thinking:其首个开源 MoE,2.5B 激活参数下接近 Qwen3-14B 的编程能力。Apache 2.0 许可。

图像生成(本周最大惊喜)

→ Ideogram 4:首次公开发布权重!9.3B 流匹配 DiT,从头训练。综合排名第二(仅次于 GPT Image 2),在 Design Arena + LMArena 上位居开源权重模型榜首。文本丰富图像的最强开源检查点,没有之一。它自带品味。仍不敢相信这是开源权重。

音频与语音(开源 TTS 大突破,4 家实验室同时发布)

→ Boson Higgs Audio v3 4B:102 种语言,21 种情感,支持唱歌/低语/喊叫,TTFA 低于 1 秒。 → RedNote dots.tts:唯一完全连续(无编解码器)的开源 TTS 流水线,Apache 2.0。 → Google Magenta RealTime 2:实时音乐生成,延迟 <200ms,支持文本+音频+MIDI。multimodalart 数小时内移植到 PyTorch 并上线实时 ZeroGPU 演示。 → NVIDIA Nemotron-3.5 ASR:600M 流式模型,并行流数比 Parakeet RNNT 1.1B 多 17 倍。

视觉与 VLM

→ PaddleOCR-VL-1.6:1B 参数下达到 SOTA 文档解析,Apache 2.0。 → Baidu NAVA:6.3B 联合音视频生成,音视频同步业界领先,Apache 2.0。

视频、3D 与世界模型

→ NVIDIA Cosmos3-Super:64B 全模态世界模型,将动作轨迹与视频+音频生成耦合,面向物理 AI。 → JD JoyAI-Echo:LTX-2.3 上支持最长 5 分钟的多镜头文本到视频。 → ByteDance Bernini-R + VAST TripoSplat(单图像到 3D 高斯泼溅,MIT 许可)。

相似文章

National Robotics Week — 最新物理AI研究、突破与资源

NVIDIA Blog

National Robotics Week 期间,NVIDIA 重点展示了其在物理AI和机器人领域的突破,宣布了多项新技术,包括用于自然语言指令理解的NVIDIA Isaac GR00T开源模型、用于合成数据生成的Cosmos世界模型、Newton 1.0物理引擎,以及借助Isaac Sim 6.0和Isaac Lab 3.0扩展的仿真能力,从而加速机器人从训练到现实部署的开发进程。