多模态视频理解中视觉状态追踪的基准测试
摘要
介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。
查看缓存全文
缓存时间: 2026/06/03 03:35
论文页面 - 多模态视频理解中的视觉状态跟踪基准测试
来源:https://huggingface.co/papers/2606.03920 作者:
,
,
,
,
,
,
,
,
,
摘要
当前的多模态大语言模型在视频中的视觉状态跟踪方面表现不佳,即使在需要人类级能力的情况下也表现欠佳,而现有的智能体方法并未有效解决这些局限性。
理解视频需要的不仅仅是识别孤立时刻,因为人类会持续跟踪实体、状态和事件随时间的变化。这种视觉状态跟踪能力是视频理解的基础,但在当前多模态大语言模型(MLLMs)的评估中仍未得到充分探索。我们引入了视觉状态跟踪基准(VSTAT),这是一个基于视频的基准,旨在诊断 MLLMs 中的视觉状态跟踪能力。VSTAT 包含 834 个剪辑片段,来自合成视频和真实世界视频,并配有 1500 个问题,这些问题无法从任何单个帧或短片段中回答,需要连续感知和跨整个视频流的事件整合。尽管现有视频基准测试中表现强劲,但我们发现最先进的 MLLMs 性能远低于人类,仅略优于基于答案先验的基线。为了分析这一差距,我们比较了 MLLMs 的思维轨迹与底层视频流,以理解 MLLMs 在 VSTAT 上失败的原因和时机。我们发现 MLLMs 在文本推理和跟踪方面是正确的,但在视觉上感知需要跟踪的事件时失败。最后,我们的初步评估表明,最近的智能体方法(包括基于 MLLM 的视频智能体和编码智能体)并不能轻易解决这些失败,在 VSTAT 上仍然表现不足。
查看 arXiv 页面 (https://arxiv.org/abs/2606.03920)查看 PDF (https://arxiv.org/pdf/2606.03920)项目页面 (https://vision-x-nyu.github.io/vstat-site/)GitHub3 (https://github.com/vision-x-nyu/vstat)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03920)
在您的智能体中获取此论文:
hf papers read 2606\.03920
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.03920 即可从此页面链接。
引用此论文的数据集 1
nyu-visionx/vstat 查看器 • 更新于约 1 小时前 • 530 • 495 • 1 (https://huggingface.co/datasets/nyu-visionx/vstat)
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.03920 即可从此页面链接。
包含此论文的收藏集 1
相似文章
@PinzhiHuang: 状态追踪是视频理解的核心支柱:它需要识别实体和事件,并映射它们如何随时间演变…
介绍VSTAT,一个衡量多模态大语言模型在视频中追踪状态能力的新基准,揭示前沿模型在人类认为简单的任务上表现不佳。
@ma_nanye: VSTAT 强调了人类与多模态大模型之间巨大的感知差距,但其意义远不止于此。其多样化的任务……
VSTAT 是一个用于视频视觉状态追踪的新基准,揭示了人类与多模态大模型之间的感知差距。
OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。
观看、记忆、推理:基于MLLMs的人类视角视频理解
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。
ViMU:视频隐喻理解基准
ViMU是首个旨在评估视频理解模型超越字面视觉理解、解读隐喻、讽刺及社会意义能力的基准,采用无提示的开放式和多项选择题。