标签
介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。
本文提出MODF-SIR,一个基于轻量级多模态大语言模型的多智能体协作框架,用于社会智能推理。它采用知识蒸馏、长尾事件提取和测试时自适应,以更少的训练数据实现了最先进的结果。
介绍了OmniCap-IF,这是首个用于评估全模态视频字幕生成中指令跟随能力的综合性基准,揭示了格式-内容权衡,并提出了改进的模型和数据集。
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。
SEATS是一种无需训练的阶段自适应Token选择方法,通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销,实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的性能。
阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。
NVIDIA 发布 Nemotron 3 Nano Omni,这是一款新型长上下文多模态 AI 模型,能够以高准确性和高效率处理文档、音频、视频和文本。
# 论文页面 - 超越文本主导:理解全模态大语言模型的模态偏好 来源:[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要 研究发现,原生全模态大语言模型表现出相对于文本的视觉偏好,模态偏好在模型中后层逐步涌现,并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。