@victormustar: 在本周结束之前，让我们回顾一下开放AI领域最疯狂的一周，发布了超过25个引人注目的开放权重模型…

X AI KOLs Following 2026/06/05 21:59 新闻

open-source open-weights large-language-models vision audio weekly-roundup ai-news

摘要

本周开放AI领域异常精彩，发布了超过25个开放权重模型，涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域，NVIDIA、Google等机构贡献突出。

在本周结束之前，让我们承认这是开放AI领域最为疯狂的一周之一，超过25个引人注目的开放权重模型发布，覆盖了所有模态：大语言模型 → NVIDIA Nemotron 3 Ultra: 550B 混合 Mamba-MoE，仅55B活跃参数，1M上下文，MMLU 89.1。NVFP4变体声称在Blackwell上实现约5倍吞吐量。首个开放权重的550B混合Mamba-Transformer，缩小了与前沿闭源模型的差距。 → Google Gemma 4 12B: 完全开放的稠密任意模态模型（文本/图像/音频/视频），256k上下文，无编码器，支持140+语言，AIME 2026得分77.5。随附23个检查点的QAT浪潮（移动端ONNX + MLX）。本周最具可部署性的模型。 → StepFun Step-3.7-Flash: 198B稀疏MoE视觉语言模型，约11B活跃参数，SWE-Bench PRO 56.3。Apache 2.0许可。 → Liquid AI LFM2.5-8B-A1B: 边缘MoE，仅1.5B活跃参数，128k上下文，MATH500 88.8，兼容MLX。本周最佳设备端选项。 → JetBrains Mellum2-12B-A2.5B-Thinking: 其首个开放MoE，2.5B活跃参数下接近Qwen3-14B的编码能力。Apache 2.0许可。图像生成（本周的惊喜） → Ideogram 4: 首次开放权重！9.3B 流匹配 DiT，从零训练。综合排名第二，仅次于GPT Image 2，在Design Arena和LMArena上排名最高的开放权重模型。文本丰富图像的最强开放检查点，没有之一。它很有品味。至今仍不敢相信这是开放权重。音频与语音（开放TTS的突破周，4个实验室发布） → Boson Higgs Audio v3 4B: 102种语言，21种情感，可歌唱/低语/喊叫，亚秒级TTFA。 → 小红书 dots.tts: 唯一完全连续（无编解码器）的开放TTS流水线，Apache 2.0许可。 → Google Magenta RealTime 2: 实时音乐生成，延迟<200ms，支持文本+音频+MIDI。multimodalart在数小时内将其移植到PyTorch，并提供实时ZeroGPU演示。 → NVIDIA Nemotron-3.5 ASR: 6亿参数流式模型，并发流数量是Parakeet RNNT 1.1B的17倍。视觉与视觉语言模型 → PaddleOCR-VL-1.6: 10亿参数下的文档解析SOTA，Apache 2.0许可。 → 百度 NAVA: 6.3B 联合音频-视频生成，行业领先的影音同步，Apache 2.0许可。视频、3D与世界模型 → NVIDIA Cosmos3-Super: 64B 全模态世界模型，将动作轨迹与视频+音频生成耦合，用于物理AI。 → 京东 JoyAI-Echo: 在LTX-2.3上实现最长5分钟的多镜头文本到视频。 → 字节跳动 Bernini-R + VAST TripoSplat（单图像到3D高斯泼溅，MIT许可）。

查看原文

查看缓存全文

缓存时间: 2026/06/05 23:21

在本周结束前，让我们回顾一下 OpenAI 史上最疯狂的一周之一——超过 25 个显著的开源权重发布，覆盖所有模态：

LLM

→ NVIDIA Nemotron 3 Ultra：550B 混合 Mamba-MoE，仅 55B 激活参数，1M 上下文，MMLU 89.1。NVFP4 变体在 Blackwell 上吞吐量提升约 5 倍。首个公开权重的 550B 混合 Mamba-Transformer，缩小了与前沿闭源模型的差距。

→ Google Gemma 4 12B：完全开放的全能模型（文本/图像/音频/视频），256k 上下文，无编码器，支持 140+ 语言，AIME 2026 得分 77.5。附带 23 个检查点的 QAT 系列（移动端 ONNX + MLX）。本周最具部署友好性的模型。

→ StepFun Step-3.7-Flash：198B 稀疏 MoE VLM，约 11B 激活参数，SWE-Bench PRO 56.3。Apache 2.0 许可。

→ Liquid AI LFM2.5-8B-A1B：边缘 MoE，仅 1.5B 激活参数，128k 上下文，MATH500 88.8，支持 MLX。本周最佳端侧选项。

→ JetBrains Mellum2-12B-A2.5B-Thinking：其首个开源 MoE，2.5B 激活参数下接近 Qwen3-14B 的编程能力。Apache 2.0 许可。

图像生成（本周最大惊喜）

→ Ideogram 4：首次公开发布权重！9.3B 流匹配 DiT，从头训练。综合排名第二（仅次于 GPT Image 2），在 Design Arena + LMArena 上位居开源权重模型榜首。文本丰富图像的最强开源检查点，没有之一。它自带品味。仍不敢相信这是开源权重。

音频与语音（开源 TTS 大突破，4 家实验室同时发布）

→ Boson Higgs Audio v3 4B：102 种语言，21 种情感，支持唱歌/低语/喊叫，TTFA 低于 1 秒。 → RedNote dots.tts：唯一完全连续（无编解码器）的开源 TTS 流水线，Apache 2.0。 → Google Magenta RealTime 2：实时音乐生成，延迟 <200ms，支持文本+音频+MIDI。multimodalart 数小时内移植到 PyTorch 并上线实时 ZeroGPU 演示。 → NVIDIA Nemotron-3.5 ASR：600M 流式模型，并行流数比 Parakeet RNNT 1.1B 多 17 倍。

视觉与 VLM

→ PaddleOCR-VL-1.6：1B 参数下达到 SOTA 文档解析，Apache 2.0。 → Baidu NAVA：6.3B 联合音视频生成，音视频同步业界领先，Apache 2.0。

视频、3D 与世界模型

→ NVIDIA Cosmos3-Super：64B 全模态世界模型，将动作轨迹与视频+音频生成耦合，面向物理 AI。 → JD JoyAI-Echo：LTX-2.3 上支持最长 5 分钟的多镜头文本到视频。 → ByteDance Bernini-R + VAST TripoSplat（单图像到 3D 高斯泼溅，MIT 许可）。

@victormustar: 在本周结束之前，让我们回顾一下开放AI领域最疯狂的一周，发布了超过25个引人注目的开放权重模型…

相似文章

@ClementDelangue：最近Nvidia（美国开源AI之王）做了很多出色的工作！——跨越了1,000个公共仓库……

@dair_ai: https://x.com/dair_ai/status/2058537927823556668

AI 一周要闻：AI 应用大爆发（Anthropic、OpenAI、Google）

@dair_ai: 本周顶级AI论文（5月11日-5月17日） - AEvo - δ-mem - AutoTTS - AI Co-Mathematician - Lighthouse Attention -…

National Robotics Week — 最新物理AI研究、突破与资源

提交意见反馈