标签
NVIDIA发布了Nemotron Ultra,这是一个拥有55B/550B参数的混合MoE模型,具有百万上下文窗口,支持MTP推测解码,并在transformers中提供day-0支持。
MiniMax发布了M3,一个开放权重模型,结合了前沿编码、1M上下文和原生多模态能力,性能与Opus相当,但成本仅为其一小部分。
StepFun 发布了 Step-3.7-Flash,这是一个新的视觉语言 MoE 大模型,拥有 198B 参数(11B 激活),256K 上下文,推理速度高达 400 tokens/秒。
OpenAI在Build Hour中发布了GPT Realtime-2及两个配套模型,增强了语音交互的智能性和自然度,支持128k上下文、并行工具调用和动态语音克隆,展示了语音驱动的购物助手和分析仪表盘等生产级应用。