标签
本文证明,使用沙盒化工具接口的文本+图像编码智能体在音视频基准测试中能够匹配甚至超越原生全模态模型,将全模态任务转化为检索与信息处理问题。
宣布Cosmos 3,一个面向Physical AI的全模态世界模型,能够在统一架构中理解和生成语言、图像、视频、音频和动作。
Cosmos 3是NVIDIA推出的一系列全模态世界模型,采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列,在物理AI的理解和生成任务上达到了最先进水平。
OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。
Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。
MiMo-V2.5 是一款原生全模态 AI 模型,具备强大的智能体(agentic)能力,在统一稀疏混合专家(MoE)架构下支持文本、图像、视频和音频的理解。
本文介绍了 Omni-Persona,这是首个涵盖文本、图像和音频的全模态个性化综合基准测试。该基准包含 Persona Modality Graph(角色模态图)以及用于评估接地(grounding)行为的新指标 Calibrated Accuracy(校准准确率)。