标签
字节跳动的 Seed 2.1 模型在多模态智能体(Claw-Eval)和长视频理解(Video-MME)基准测试中取得了强劲的结果,尽管在感知和智能体能力之间仍存在差距。
介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。
LLaVA-OneVision-2 引入了编解码流令牌化技术以实现高效的视频理解,在时间与空间基准测试上显著超越 Qwen3-VL-8B。模型、数据和代码均已开源。
InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。
本文研究了多模态大语言模型(MLLMs)在视频理解任务中检测正确答案缺失的能力,发现模型系统性地失败,倾向于选择合理的干扰项而非识别出没有有效选项。该失败在时序推理和密集帧采样中更为严重,而思维链提示仅能部分缓解问题。
介绍了OmniCap-IF,这是首个用于评估全模态视频字幕生成中指令跟随能力的综合性基准,揭示了格式-内容权衡,并提出了改进的模型和数据集。
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。
VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准,包含 306 条带有内容、格式、风格和结构约束的测试指令,以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍具挑战性,而基于该基准数据进行 DPO 训练可提升指令遵循性能。
GeoVR 通过利用多个几何目标从3D基础模型中蒸馏几何知识,重构多模态大语言模型的语义潜空间,从而增强其3D感知能力。
本文介绍了一对多时序定位(OMTG)这一新任务,用于从单个文本查询中定位多个不连续的视频片段,同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数,取得了最新最优的结果,优于Gemini 2.5 Pro和Seed-1.8。
字节Seed开源了TaskMem checkpoint,基于Qwen3-VL-30B-A3B训练,通过两阶段强化学习让多模态Agent在视频流中学会生成长期记忆,在VideoMME、EgoLife等基准上获得显著提升。
介绍VSTAT,一个衡量多模态大语言模型在视频中追踪状态能力的新基准,揭示前沿模型在人类认为简单的任务上表现不佳。
VSTAT 是一个用于视频视觉状态追踪的新基准,揭示了人类与多模态大模型之间的感知差距。
M^3Eval是一个全面的评估框架和基准,用于探查多模态模型中的记忆能力,其设计基于认知心理学。实验揭示了在记忆维持、干扰模式和时空定位方面的一致弱点。
介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。
X-Stream 引入了首个多流视频理解基准,将MLLMs作为多路复用器在多个并发流中进行评估。研究表明,当前MLLMs仅能达到约50%的准确率,暴露了处理多流时的显著局限性。
StateKV是一种推理时方法,通过将跨帧上下文携带在固定容量的循环状态中,实现长视频视觉语言模型的线性时间视频预填充,在无需微调的情况下保持接近完全自注意力的准确性。
EarlyTom是一个无需训练即可在视觉编码器早期压缩视觉token的框架,可减少首个token生成时间和计算成本,同时保持准确性,实现高达2.65倍的TTFT降低。
Kwai-Keye 发布了 Keye-VL-2.0-30B-A3B,这是一款 30B 级别的视觉语言模型,具备先进的视频理解、稀疏注意力机制和智能体能力,在多项基准测试中达到顶尖水平。
LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。