线性缩放视频VLM用于长视频理解

Hugging Face Daily Papers 论文

摘要

StateKV是一种推理时方法,通过将跨帧上下文携带在固定容量的循环状态中,实现长视频视觉语言模型的线性时间视频预填充,在无需微调的情况下保持接近完全自注意力的准确性。

视频视觉语言模型(VLM)越来越多地用于长时域和流式场景,但大多数视频编码器仍然依赖时空自注意力,导致计算和延迟随帧数二次增长。现有的效率方法提高了可扩展性,但相对于完全自注意力往往损失准确性,例如通过激进的帧/令牌丢弃或粗略的注意力近似。我们引入StateKV,一种推理时方法,通过将跨帧上下文携带在固定容量、基于重要性的循环状态中,并配合用于解码的第二个全逐帧缓存,使预训练的长视频VLM适应线性时间视频预填充。在三个长视频基准和七个模型(涵盖三个系列和多个规模)上,StateKV的表现接近完全自注意力,并始终优于主流的基于滑动窗口/近期的流式近似,无需微调或架构更改。StateKV还降低了以FLOPs衡量的视频预填充成本,从而在固定计算预算下通过运行更大模型实现更强的准确性。这些结果表明向可扩展的长视频理解迈出了实际的一步。
查看原文
查看缓存全文

缓存时间: 2026/06/01 03:17

论文页面 - 面向长视频理解的线性缩放视频VLMs

来源:https://huggingface.co/papers/2605.31598

摘要

StateKV通过在一个固定容量的循环状态中维护跨帧上下文,同时使用完整的逐帧缓存进行解码,实现了高效的长视频视觉语言模型推理,与完整自注意力相比,在保持最小精度损失的同时实现了线性时间预填充。

视频视觉语言模型(https://huggingface.co/papers?q=Video%20vision-language%20models)(VLM)越来越多地用于长周期和流式设置中,然而大多数视频编码器(https://huggingface.co/papers?q=video%20encoders)仍然依赖时空自注意力(https://huggingface.co/papers?q=spatiotemporal%20self-attention),导致计算量和延迟随帧数二次增长。现有的效率方法提升了可扩展性,但往往在精度上相比完整自注意力有所损失,例如通过激进的帧/标记丢弃或粗粒度的注意力近似。我们提出StateKV,一种推理时方法,通过将跨帧上下文(https://huggingface.co/papers?q=cross-frame%20context)携带在一个固定容量、基于重要性的循环状态(https://huggingface.co/papers?q=recurrent%20state)中,并配以第二个完整的逐帧缓存(https://huggingface.co/papers?q=full%20per-frame%20cache)用于解码,从而使预训练的长视频VLM适应线性时间视频预填充。在三个长视频基准(https://huggingface.co/papers?q=long-video%20benchmarks)上,涵盖三个系列和多个规模的七个模型,StateKV的结果接近完整自注意力,并持续优于主流的滑动窗口(https://huggingface.co/papers?q=sliding-window)/最近性流式近似(https://huggingface.co/papers?q=recency-based%20streaming%20approximations),且无需微调或架构更改。StateKV还降低了视频预填充的FLOPs(https://huggingface.co/papers?q=FLOPs)成本,从而在固定计算预算下通过运行更大模型实现更强的精度。这些结果表明,这是迈向可扩展长视频理解的一个实用步骤。

查看arXiv页面(https://arxiv.org/abs/2605.31598)查看PDF(https://arxiv.org/pdf/2605.31598)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31598)

在您的智能体中使用这篇论文:

hf papers read 2605\.31598

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接到此论文

在模型README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。

引用此论文的数据集0

无数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。

引用此论文的Space0

无Space链接到此论文

在Space README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。

包含此论文的收藏集0

无收藏集包含此论文

将这篇论文添加到收藏集(https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

Geo-Strat-RL: 从可验证任务中学习地质事件推理

arXiv cs.LG

本文介绍了Geo-Strat-RL,一个使用可验证奖励强化学习(RLVR)来训练视觉语言模型从地层图和地震数据中推理地质事件历史的合成环境,展示了改进的重建和跨领域迁移能力。

@FinanceYF5: 论文:

X AI KOLs Following

本文介绍了 LatentMAS,一种用于多智能体系统的无需训练框架,使大语言模型智能体能够通过共享潜在工作记忆在连续潜在空间中直接协作,实现了高达 14.6% 的准确率提升和 4 倍的推理速度提升,同时将 Token 使用量减少超过 70%。