线性缩放视频VLM用于长视频理解

Hugging Face Daily Papers 2026/05/29 00:00 论文

摘要

StateKV是一种推理时方法，通过将跨帧上下文携带在固定容量的循环状态中，实现长视频视觉语言模型的线性时间视频预填充，在无需微调的情况下保持接近完全自注意力的准确性。

视频视觉语言模型（VLM）越来越多地用于长时域和流式场景，但大多数视频编码器仍然依赖时空自注意力，导致计算和延迟随帧数二次增长。现有的效率方法提高了可扩展性，但相对于完全自注意力往往损失准确性，例如通过激进的帧/令牌丢弃或粗略的注意力近似。我们引入StateKV，一种推理时方法，通过将跨帧上下文携带在固定容量、基于重要性的循环状态中，并配合用于解码的第二个全逐帧缓存，使预训练的长视频VLM适应线性时间视频预填充。在三个长视频基准和七个模型（涵盖三个系列和多个规模）上，StateKV的表现接近完全自注意力，并始终优于主流的基于滑动窗口/近期的流式近似，无需微调或架构更改。StateKV还降低了以FLOPs衡量的视频预填充成本，从而在固定计算预算下通过运行更大模型实现更强的准确性。这些结果表明向可扩展的长视频理解迈出了实际的一步。

查看原文

查看缓存全文

缓存时间: 2026/06/01 03:17

论文页面 - 面向长视频理解的线性缩放视频VLMs

来源：https://huggingface.co/papers/2605.31598

摘要

StateKV通过在一个固定容量的循环状态中维护跨帧上下文，同时使用完整的逐帧缓存进行解码，实现了高效的长视频视觉语言模型推理，与完整自注意力相比，在保持最小精度损失的同时实现了线性时间预填充。

视频视觉语言模型（https://huggingface.co/papers?q=Video%20vision-language%20models）（VLM）越来越多地用于长周期和流式设置中，然而大多数视频编码器（https://huggingface.co/papers?q=video%20encoders）仍然依赖时空自注意力（https://huggingface.co/papers?q=spatiotemporal%20self-attention），导致计算量和延迟随帧数二次增长。现有的效率方法提升了可扩展性，但往往在精度上相比完整自注意力有所损失，例如通过激进的帧/标记丢弃或粗粒度的注意力近似。我们提出StateKV，一种推理时方法，通过将跨帧上下文（https://huggingface.co/papers?q=cross-frame%20context）携带在一个固定容量、基于重要性的循环状态（https://huggingface.co/papers?q=recurrent%20state）中，并配以第二个完整的逐帧缓存（https://huggingface.co/papers?q=full%20per-frame%20cache）用于解码，从而使预训练的长视频VLM适应线性时间视频预填充。在三个长视频基准（https://huggingface.co/papers?q=long-video%20benchmarks）上，涵盖三个系列和多个规模的七个模型，StateKV的结果接近完整自注意力，并持续优于主流的滑动窗口（https://huggingface.co/papers?q=sliding-window）/最近性流式近似（https://huggingface.co/papers?q=recency-based%20streaming%20approximations），且无需微调或架构更改。StateKV还降低了视频预填充的FLOPs（https://huggingface.co/papers?q=FLOPs）成本，从而在固定计算预算下通过运行更大模型实现更强的精度。这些结果表明，这是迈向可扩展长视频理解的一个实用步骤。

查看arXiv页面（https://arxiv.org/abs/2605.31598）查看PDF（https://arxiv.org/pdf/2605.31598）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.31598）

在您的智能体中使用这篇论文：

hf papers read 2605\.31598

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接到此论文

在模型README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。

引用此论文的数据集0

无数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。

引用此论文的Space0

无Space链接到此论文

在Space README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。

包含此论文的收藏集0

无收藏集包含此论文

将这篇论文添加到收藏集（https://huggingface.co/new-collection）以在此页面建立链接。

线性缩放视频VLM用于长视频理解

论文页面 - 面向长视频理解的线性缩放视频VLMs

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

Geo-Strat-RL: 从可验证任务中学习地质事件推理

Dustin: 草稿增强的稀疏验证用于高效长上下文生成与推测解码

@FinanceYF5: 论文：

感知RoPE的KV缓存量化比特分配方法

无需妥协的遗忘：固定预算下流式KV-Cache驱逐的Nexus采样

提交意见反馈