多模态视频理解中视觉状态追踪的基准测试

Hugging Face Daily Papers 2026/06/02 00:00 论文

摘要

介绍VSTAT，一个用于评估多模态大语言模型（MLLMs）中视觉状态追踪的基准，包含834个片段和1,500个问题。当前MLLMs表现远逊于人类，问题出在视觉感知而非推理上。

理解视频不仅仅是识别孤立瞬间，因为人类会持续追踪实体、状态和事件随时间的变化。这种视觉状态追踪能力是视频理解的基础，但在当前多模态大语言模型（MLLMs）的评估中仍未得到充分探索。我们提出了视觉状态追踪基准（VSTAT），这是一个基于视频的基准，旨在诊断MLLMs中的视觉状态追踪能力。VSTAT包含834个片段，来自合成和真实世界视频，并配有1,500个问题，这些问题无法从单个帧或短片段中回答，需要持续感知并整合整个视频流中的事件。尽管在现有视频基准上表现强劲，我们发现最先进的MLLMs的表现远低于人类，仅略高于基于先验答案的基线。为分析这一差距，我们将MLLMs的思考轨迹与底层视频流进行比较，以理解MLLMs在VSTAT上失败的原因和时机。我们发现MLLMs在文本层面能够正确推理和追踪，但在视觉感知需要追踪的事件上存在困难。最后，我们的初步评估显示，最近基于代理的方法，包括基于MLLM的视频代理和编码代理，并未轻易解决这些失败，在VSTAT上仍表现不佳。

查看原文

查看缓存全文

缓存时间: 2026/06/03 03:35

论文页面 - 多模态视频理解中的视觉状态跟踪基准测试

来源：https://huggingface.co/papers/2606.03920 作者：

，

摘要

当前的多模态大语言模型在视频中的视觉状态跟踪方面表现不佳，即使在需要人类级能力的情况下也表现欠佳，而现有的智能体方法并未有效解决这些局限性。

理解视频需要的不仅仅是识别孤立时刻，因为人类会持续跟踪实体、状态和事件随时间的变化。这种视觉状态跟踪能力是视频理解的基础，但在当前多模态大语言模型（MLLMs）的评估中仍未得到充分探索。我们引入了视觉状态跟踪基准（VSTAT），这是一个基于视频的基准，旨在诊断 MLLMs 中的视觉状态跟踪能力。VSTAT 包含 834 个剪辑片段，来自合成视频和真实世界视频，并配有 1500 个问题，这些问题无法从任何单个帧或短片段中回答，需要连续感知和跨整个视频流的事件整合。尽管现有视频基准测试中表现强劲，但我们发现最先进的 MLLMs 性能远低于人类，仅略优于基于答案先验的基线。为了分析这一差距，我们比较了 MLLMs 的思维轨迹与底层视频流，以理解 MLLMs 在 VSTAT 上失败的原因和时机。我们发现 MLLMs 在文本推理和跟踪方面是正确的，但在视觉上感知需要跟踪的事件时失败。最后，我们的初步评估表明，最近的智能体方法（包括基于 MLLM 的视频智能体和编码智能体）并不能轻易解决这些失败，在 VSTAT 上仍然表现不足。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03920)查看 PDF (https://arxiv.org/pdf/2606.03920)项目页面 (https://vision-x-nyu.github.io/vstat-site/)GitHub3 (https://github.com/vision-x-nyu/vstat)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03920)

在您的智能体中获取此论文：

hf papers read 2606\.03920

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.03920 即可从此页面链接。

引用此论文的数据集 1

nyu-visionx/vstat 查看器 • 更新于约 1 小时前 • 530 • 495 • 1 (https://huggingface.co/datasets/nyu-visionx/vstat)

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.03920 即可从此页面链接。

多模态视频理解中视觉状态追踪的基准测试

论文页面 - 多模态视频理解中的视觉状态跟踪基准测试

摘要

引用此论文的模型 0

引用此论文的数据集 1

nyu-visionx/vstat 查看器 • 更新于约 1 小时前 • 530 • 495 • 1 (https://huggingface.co/datasets/nyu-visionx/vstat)

引用此论文的 Spaces 0

包含此论文的收藏集 1

相似文章

@PinzhiHuang: 状态追踪是视频理解的核心支柱：它需要识别实体和事件，并映射它们如何随时间演变…

@ma_nanye: VSTAT 强调了人类与多模态大模型之间巨大的感知差距，但其意义远不止于此。其多样化的任务……

VIABench：一项由视障人士收集的全面视频基准，用于视觉障碍辅助

Video-MME-Logical: 一种用于视频时间逻辑推理的受控诊断基准

OVO-S-Bench：面向多模态大语言模型流式空间智能的层次化基准测试

提交意见反馈