观看、记忆、推理:基于MLLMs的人类视角视频理解
摘要
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。
查看缓存全文
缓存时间: 2026/06/08 07:14
论文页面 - 观看、记忆、推理:基于MLLMs的人类视角视频理解
来源:https://huggingface.co/papers/2606.07433 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
用于视频理解的多模态大语言模型围绕三种核心能力构建——观看、记忆和推理——其应用涵盖多个视频领域,并应对感知、记忆和推理方面的挑战。
视频理解(https://huggingface.co/papers?q=Video%20understanding)正被多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)(MLLMs)迅速重塑,研究正从短片段转向长视频、多模态以及知识密集型视频场景。这些场景要求模型在有限计算预算下处理稀疏证据、长程依赖(https://huggingface.co/papers?q=long-range%20dependencies)、多模态对齐(https://huggingface.co/papers?q=multimodal%20alignment)以及可靠推理。本文从人类视角出发,对基于LLM的视频理解(https://huggingface.co/papers?q=video%20understanding)进行了阐述,围绕三种功能性能力组织:观看、记忆和推理。该视角并非将视频任务视为孤立的基准,而是提供一个统一框架来分析视频MLLMs(https://huggingface.co/papers?q=video%20MLLMs)如何获取证据、保持上下文并生成有依据的输出。我们引入了一种形式化描述,通过感知表示(https://huggingface.co/papers?q=perceptual%20representations)、记忆状态(https://huggingface.co/papers?q=memory%20states)、推理痕迹(https://huggingface.co/papers?q=reasoning%20traces)和最终预测来刻画视频理解(https://huggingface.co/papers?q=video%20understanding)系统。基于这一形式化描述,我们识别出在时空感知(https://huggingface.co/papers?q=spatio-temporal%20perception)、高效长视频处理、记忆建模(https://huggingface.co/papers?q=memory%20modeling)、流式理解(https://huggingface.co/papers?q=streaming%20understanding)和忠实推理(https://huggingface.co/papers?q=faithful%20reasoning)方面的挑战。代表性方法按其视频MLLM系统中的角色进行组织。观看涵盖细粒度、全面、音视频和高效感知。记忆包括离线和流式记忆,而推理涵盖纯文本推理和视频辅助思考。我们进一步审视了应用领域,如第一人称、体育、教学、医学和叙事视频(https://huggingface.co/papers?q=narrative%20videos),并覆盖了按任务类型、监督格式、模态和能力维度划分的训练数据集和评估基准。最后,我们概述了可扩展、记忆感知且基于证据的视频智能的开放问题和未来方向。相关工作将持续追踪于 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding。
查看arXiv页面(https://arxiv.org/abs/2606.07433)查看PDF(https://arxiv.org/pdf/2606.07433)GitHub8(https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.07433)
在您的代理中获取此论文:
hf papers read 2606.07433
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.07433,以从本页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.07433,以从本页面链接。
引用此论文的Space0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.07433,以从本页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection),以从本页面链接。
相似文章
多模态视频理解中视觉状态追踪的基准测试
介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型
介绍 iVGR,一种强化学习框架,将视觉定位内化到多模态语言模型的文本推理中,在提升细粒度感知性能的同时,消除了推理过程中显式视觉基础的需求。
LatentOmni:通过统一视听潜在推理重新思考全模态理解
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。