多模态视频理解中视觉状态追踪的基准测试

Hugging Face Daily Papers 论文

摘要

介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。

理解视频不仅仅是识别孤立瞬间,因为人类会持续追踪实体、状态和事件随时间的变化。这种视觉状态追踪能力是视频理解的基础,但在当前多模态大语言模型(MLLMs)的评估中仍未得到充分探索。我们提出了视觉状态追踪基准(VSTAT),这是一个基于视频的基准,旨在诊断MLLMs中的视觉状态追踪能力。VSTAT包含834个片段,来自合成和真实世界视频,并配有1,500个问题,这些问题无法从单个帧或短片段中回答,需要持续感知并整合整个视频流中的事件。尽管在现有视频基准上表现强劲,我们发现最先进的MLLMs的表现远低于人类,仅略高于基于先验答案的基线。为分析这一差距,我们将MLLMs的思考轨迹与底层视频流进行比较,以理解MLLMs在VSTAT上失败的原因和时机。我们发现MLLMs在文本层面能够正确推理和追踪,但在视觉感知需要追踪的事件上存在困难。最后,我们的初步评估显示,最近基于代理的方法,包括基于MLLM的视频代理和编码代理,并未轻易解决这些失败,在VSTAT上仍表现不佳。
查看原文
查看缓存全文

缓存时间: 2026/06/03 03:35

论文页面 - 多模态视频理解中的视觉状态跟踪基准测试

来源:https://huggingface.co/papers/2606.03920 作者:

摘要

当前的多模态大语言模型在视频中的视觉状态跟踪方面表现不佳,即使在需要人类级能力的情况下也表现欠佳,而现有的智能体方法并未有效解决这些局限性。

理解视频需要的不仅仅是识别孤立时刻,因为人类会持续跟踪实体、状态和事件随时间的变化。这种视觉状态跟踪能力是视频理解的基础,但在当前多模态大语言模型(MLLMs)的评估中仍未得到充分探索。我们引入了视觉状态跟踪基准(VSTAT),这是一个基于视频的基准,旨在诊断 MLLMs 中的视觉状态跟踪能力。VSTAT 包含 834 个剪辑片段,来自合成视频和真实世界视频,并配有 1500 个问题,这些问题无法从任何单个帧或短片段中回答,需要连续感知和跨整个视频流的事件整合。尽管现有视频基准测试中表现强劲,但我们发现最先进的 MLLMs 性能远低于人类,仅略优于基于答案先验的基线。为了分析这一差距,我们比较了 MLLMs 的思维轨迹与底层视频流,以理解 MLLMs 在 VSTAT 上失败的原因和时机。我们发现 MLLMs 在文本推理和跟踪方面是正确的,但在视觉上感知需要跟踪的事件时失败。最后,我们的初步评估表明,最近的智能体方法(包括基于 MLLM 的视频智能体编码智能体)并不能轻易解决这些失败,在 VSTAT 上仍然表现不足。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03920)查看 PDF (https://arxiv.org/pdf/2606.03920)项目页面 (https://vision-x-nyu.github.io/vstat-site/)GitHub3 (https://github.com/vision-x-nyu/vstat)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03920)

在您的智能体中获取此论文:

hf papers read 2606\.03920

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.03920 即可从此页面链接。

引用此论文的数据集 1

nyu-visionx/vstat 查看器 • 更新于约 1 小时前 • 530 • 495 • 1 (https://huggingface.co/datasets/nyu-visionx/vstat)

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.03920 即可从此页面链接。

包含此论文的收藏集 1

相似文章

OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试

Papers with Code Trending

OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。

ViMU:视频隐喻理解基准

Hugging Face Daily Papers

ViMU是首个旨在评估视频理解模型超越字面视觉理解、解读隐喻、讽刺及社会意义能力的基准,采用无提示的开放式和多项选择题。