观看、记忆、推理:基于MLLMs的人类视角视频理解

Hugging Face Daily Papers 论文

摘要

一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。

视频理解正被多模态大语言模型(MLLMs)迅速改变,研究从短视频片段扩展到长视频、多模态和知识密集型场景。这些场景要求模型能够处理稀疏证据、长程依赖、多模态对齐,并在有限计算预算下进行可靠推理。本文从人类视角出发,围绕三个功能能力——观看、记忆和推理——对基于LLM的视频理解进行综述。这一视角并非将视频任务视为孤立的基准,而是为分析视频MLLMs如何获取证据、保留上下文并产生可靠输出提供了一个统一框架。我们提出了一种形式化描述,通过感知表示、记忆状态、推理轨迹和最终预测来表征视频理解系统。基于该形式化,我们识别出在时空感知、高效长视频处理、记忆建模、流式理解和忠实推理方面的挑战。代表性方法按其角色在视频MLLM系统中的作用进行组织。观看涵盖细粒度、全面、视听和高效感知。记忆包括离线和流式记忆,推理涵盖纯文本推理和基于视频的思考。我们进一步考察了应用领域,如自我中心视频、体育视频、教学视频、医学视频和叙事视频,并涵盖了跨任务类型、监督格式、模态和能力维度的训练数据集和评估基准。最后,我们概述了可扩展、内存感知和基于证据的视频智能的开放问题和未来方向。相关工作将持续追踪于 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding。
查看原文
查看缓存全文

缓存时间: 2026/06/08 07:14

论文页面 - 观看、记忆、推理:基于MLLMs的人类视角视频理解

来源:https://huggingface.co/papers/2606.07433 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

用于视频理解的多模态大语言模型围绕三种核心能力构建——观看、记忆和推理——其应用涵盖多个视频领域,并应对感知、记忆和推理方面的挑战。

视频理解(https://huggingface.co/papers?q=Video%20understanding)正被多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)(MLLMs)迅速重塑,研究正从短片段转向长视频、多模态以及知识密集型视频场景。这些场景要求模型在有限计算预算下处理稀疏证据、长程依赖(https://huggingface.co/papers?q=long-range%20dependencies)、多模态对齐(https://huggingface.co/papers?q=multimodal%20alignment)以及可靠推理。本文从人类视角出发,对基于LLM的视频理解(https://huggingface.co/papers?q=video%20understanding)进行了阐述,围绕三种功能性能力组织:观看、记忆和推理。该视角并非将视频任务视为孤立的基准,而是提供一个统一框架来分析视频MLLMs(https://huggingface.co/papers?q=video%20MLLMs)如何获取证据、保持上下文并生成有依据的输出。我们引入了一种形式化描述,通过感知表示(https://huggingface.co/papers?q=perceptual%20representations)、记忆状态(https://huggingface.co/papers?q=memory%20states)、推理痕迹(https://huggingface.co/papers?q=reasoning%20traces)和最终预测来刻画视频理解(https://huggingface.co/papers?q=video%20understanding)系统。基于这一形式化描述,我们识别出在时空感知(https://huggingface.co/papers?q=spatio-temporal%20perception)、高效长视频处理、记忆建模(https://huggingface.co/papers?q=memory%20modeling)、流式理解(https://huggingface.co/papers?q=streaming%20understanding)和忠实推理(https://huggingface.co/papers?q=faithful%20reasoning)方面的挑战。代表性方法按其视频MLLM系统中的角色进行组织。观看涵盖细粒度、全面、音视频和高效感知。记忆包括离线和流式记忆,而推理涵盖纯文本推理和视频辅助思考。我们进一步审视了应用领域,如第一人称、体育、教学、医学和叙事视频(https://huggingface.co/papers?q=narrative%20videos),并覆盖了按任务类型、监督格式、模态和能力维度划分的训练数据集和评估基准。最后,我们概述了可扩展、记忆感知且基于证据的视频智能的开放问题和未来方向。相关工作将持续追踪于 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding。

查看arXiv页面(https://arxiv.org/abs/2606.07433)查看PDF(https://arxiv.org/pdf/2606.07433)GitHub8(https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.07433)

在您的代理中获取此论文:

hf papers read 2606.07433

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.07433,以从本页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.07433,以从本页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.07433,以从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection),以从本页面链接。

相似文章

多模态视频理解中视觉状态追踪的基准测试

Hugging Face Daily Papers

介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。