观看、记忆、推理：基于MLLMs的人类视角视频理解

Hugging Face Daily Papers 2026/06/05 00:00 论文

video-understanding multimodal-llms survey perception memory reasoning

摘要

一篇综述，以人类视角呈现对多模态大语言模型（MLLMs）进行视频理解的研究，围绕观看、记忆和推理能力组织，涵盖挑战、方法和应用。

视频理解正被多模态大语言模型（MLLMs）迅速改变，研究从短视频片段扩展到长视频、多模态和知识密集型场景。这些场景要求模型能够处理稀疏证据、长程依赖、多模态对齐，并在有限计算预算下进行可靠推理。本文从人类视角出发，围绕三个功能能力——观看、记忆和推理——对基于LLM的视频理解进行综述。这一视角并非将视频任务视为孤立的基准，而是为分析视频MLLMs如何获取证据、保留上下文并产生可靠输出提供了一个统一框架。我们提出了一种形式化描述，通过感知表示、记忆状态、推理轨迹和最终预测来表征视频理解系统。基于该形式化，我们识别出在时空感知、高效长视频处理、记忆建模、流式理解和忠实推理方面的挑战。代表性方法按其角色在视频MLLM系统中的作用进行组织。观看涵盖细粒度、全面、视听和高效感知。记忆包括离线和流式记忆，推理涵盖纯文本推理和基于视频的思考。我们进一步考察了应用领域，如自我中心视频、体育视频、教学视频、医学视频和叙事视频，并涵盖了跨任务类型、监督格式、模态和能力维度的训练数据集和评估基准。最后，我们概述了可扩展、内存感知和基于证据的视频智能的开放问题和未来方向。相关工作将持续追踪于 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding。

查看原文

查看缓存全文

缓存时间: 2026/06/08 07:14

论文页面 - 观看、记忆、推理：基于MLLMs的人类视角视频理解

来源：https://huggingface.co/papers/2606.07433 作者：

摘要

用于视频理解的多模态大语言模型围绕三种核心能力构建——观看、记忆和推理——其应用涵盖多个视频领域，并应对感知、记忆和推理方面的挑战。

视频理解（https://huggingface.co/papers?q=Video%20understanding）正被多模态大语言模型（https://huggingface.co/papers?q=multimodal%20large%20language%20models）（MLLMs）迅速重塑，研究正从短片段转向长视频、多模态以及知识密集型视频场景。这些场景要求模型在有限计算预算下处理稀疏证据、长程依赖（https://huggingface.co/papers?q=long-range%20dependencies）、多模态对齐（https://huggingface.co/papers?q=multimodal%20alignment）以及可靠推理。本文从人类视角出发，对基于LLM的视频理解（https://huggingface.co/papers?q=video%20understanding）进行了阐述，围绕三种功能性能力组织：观看、记忆和推理。该视角并非将视频任务视为孤立的基准，而是提供一个统一框架来分析视频MLLMs（https://huggingface.co/papers?q=video%20MLLMs）如何获取证据、保持上下文并生成有依据的输出。我们引入了一种形式化描述，通过感知表示（https://huggingface.co/papers?q=perceptual%20representations）、记忆状态（https://huggingface.co/papers?q=memory%20states）、推理痕迹（https://huggingface.co/papers?q=reasoning%20traces）和最终预测来刻画视频理解（https://huggingface.co/papers?q=video%20understanding）系统。基于这一形式化描述，我们识别出在时空感知（https://huggingface.co/papers?q=spatio-temporal%20perception）、高效长视频处理、记忆建模（https://huggingface.co/papers?q=memory%20modeling）、流式理解（https://huggingface.co/papers?q=streaming%20understanding）和忠实推理（https://huggingface.co/papers?q=faithful%20reasoning）方面的挑战。代表性方法按其视频MLLM系统中的角色进行组织。观看涵盖细粒度、全面、音视频和高效感知。记忆包括离线和流式记忆，而推理涵盖纯文本推理和视频辅助思考。我们进一步审视了应用领域，如第一人称、体育、教学、医学和叙事视频（https://huggingface.co/papers?q=narrative%20videos），并覆盖了按任务类型、监督格式、模态和能力维度划分的训练数据集和评估基准。最后，我们概述了可扩展、记忆感知且基于证据的视频智能的开放问题和未来方向。相关工作将持续追踪于 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding。

查看arXiv页面（https://arxiv.org/abs/2606.07433）查看PDF（https://arxiv.org/pdf/2606.07433）GitHub8（https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.07433）

在您的代理中获取此论文：

hf papers read 2606.07433

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.07433，以从本页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.07433，以从本页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.07433，以从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection），以从本页面链接。

观看、记忆、推理：基于MLLMs的人类视角视频理解

论文页面 - 观看、记忆、推理：基于MLLMs的人类视角视频理解

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

Video-MME-Logical: 一种用于视频时间逻辑推理的受控诊断基准

InternVideo3: 使用多模态上下文推理将基础模型智能体化

从结构到协同：多模态大语言模型中视觉-语言感知范式演进的综述

当没有正确答案时：诊断视频理解中多模态大语言模型的缺失答案检测

@burny_tech: 隐式推理综述 "大型语言模型(LLMs)展现了令人印象深刻的推理能力，尤其是……

提交意见反馈