@victormustar: 在本周结束之前,让我们回顾一下开放AI领域最疯狂的一周,发布了超过25个引人注目的开放权重模型…
摘要
本周开放AI领域异常精彩,发布了超过25个开放权重模型,涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域,NVIDIA、Google等机构贡献突出。
查看缓存全文
缓存时间: 2026/06/05 23:21
在本周结束前,让我们回顾一下 OpenAI 史上最疯狂的一周之一——超过 25 个显著的开源权重发布,覆盖所有模态:
LLM
→ NVIDIA Nemotron 3 Ultra:550B 混合 Mamba-MoE,仅 55B 激活参数,1M 上下文,MMLU 89.1。NVFP4 变体在 Blackwell 上吞吐量提升约 5 倍。首个公开权重的 550B 混合 Mamba-Transformer,缩小了与前沿闭源模型的差距。
→ Google Gemma 4 12B:完全开放的全能模型(文本/图像/音频/视频),256k 上下文,无编码器,支持 140+ 语言,AIME 2026 得分 77.5。附带 23 个检查点的 QAT 系列(移动端 ONNX + MLX)。本周最具部署友好性的模型。
→ StepFun Step-3.7-Flash:198B 稀疏 MoE VLM,约 11B 激活参数,SWE-Bench PRO 56.3。Apache 2.0 许可。
→ Liquid AI LFM2.5-8B-A1B:边缘 MoE,仅 1.5B 激活参数,128k 上下文,MATH500 88.8,支持 MLX。本周最佳端侧选项。
→ JetBrains Mellum2-12B-A2.5B-Thinking:其首个开源 MoE,2.5B 激活参数下接近 Qwen3-14B 的编程能力。Apache 2.0 许可。
图像生成(本周最大惊喜)
→ Ideogram 4:首次公开发布权重!9.3B 流匹配 DiT,从头训练。综合排名第二(仅次于 GPT Image 2),在 Design Arena + LMArena 上位居开源权重模型榜首。文本丰富图像的最强开源检查点,没有之一。它自带品味。仍不敢相信这是开源权重。
音频与语音(开源 TTS 大突破,4 家实验室同时发布)
→ Boson Higgs Audio v3 4B:102 种语言,21 种情感,支持唱歌/低语/喊叫,TTFA 低于 1 秒。 → RedNote dots.tts:唯一完全连续(无编解码器)的开源 TTS 流水线,Apache 2.0。 → Google Magenta RealTime 2:实时音乐生成,延迟 <200ms,支持文本+音频+MIDI。multimodalart 数小时内移植到 PyTorch 并上线实时 ZeroGPU 演示。 → NVIDIA Nemotron-3.5 ASR:600M 流式模型,并行流数比 Parakeet RNNT 1.1B 多 17 倍。
视觉与 VLM
→ PaddleOCR-VL-1.6:1B 参数下达到 SOTA 文档解析,Apache 2.0。 → Baidu NAVA:6.3B 联合音视频生成,音视频同步业界领先,Apache 2.0。
视频、3D 与世界模型
→ NVIDIA Cosmos3-Super:64B 全模态世界模型,将动作轨迹与视频+音频生成耦合,面向物理 AI。 → JD JoyAI-Echo:LTX-2.3 上支持最长 5 分钟的多镜头文本到视频。 → ByteDance Bernini-R + VAST TripoSplat(单图像到 3D 高斯泼溅,MIT 许可)。
相似文章
@ClementDelangue:最近Nvidia(美国开源AI之王)做了很多出色的工作!——跨越了1,000个公共仓库……
Nvidia在Hugging Face上突破了1,000个公共仓库,展示了热门模型,并宣布了Cosmos 3、Alphamayo 2 Super、Nemotron 3/4的计划以及采用OpenMDW框架,凸显了其在开源AI领域的领导地位。
@dair_ai: https://x.com/dair_ai/status/2058537927823556668
本周(5月18-24日)顶级AI论文综述,涵盖关于代理的code-as-harness调查、OpenAI自主解决单位距离猜想,以及一种无需遗忘的持续学习记忆模型。
AI 一周要闻:AI 应用大爆发(Anthropic、OpenAI、Google)
OpenAI 全新 Codex 桌面应用把代码生成、浏览器自动化与持久化 Agent 集成进单一 IDE;Anthropic 为 Claude Code 新增并行会话功能;Google 推出桌面应用、Chrome 斜杠命令及一款高表现力 TTS 模型。
@dair_ai: 本周顶级AI论文(5月11日-5月17日) - AEvo - δ-mem - AutoTTS - AI Co-Mathematician - Lighthouse Attention -…
一份精心挑选的顶级AI论文列表,涵盖5月11日至17日期间,包括AEvo、δ-mem、AutoTTS、AI Co-Mathematician、Lighthouse Attention等论文。
National Robotics Week — 最新物理AI研究、突破与资源
National Robotics Week 期间,NVIDIA 重点展示了其在物理AI和机器人领域的突破,宣布了多项新技术,包括用于自然语言指令理解的NVIDIA Isaac GR00T开源模型、用于合成数据生成的Cosmos世界模型、Newton 1.0物理引擎,以及借助Isaac Sim 6.0和Isaac Lab 3.0扩展的仿真能力,从而加速机器人从训练到现实部署的开发进程。