线性缩放视频VLM用于长视频理解
摘要
StateKV是一种推理时方法,通过将跨帧上下文携带在固定容量的循环状态中,实现长视频视觉语言模型的线性时间视频预填充,在无需微调的情况下保持接近完全自注意力的准确性。
查看缓存全文
缓存时间: 2026/06/01 03:17
论文页面 - 面向长视频理解的线性缩放视频VLMs
来源:https://huggingface.co/papers/2605.31598
摘要
StateKV通过在一个固定容量的循环状态中维护跨帧上下文,同时使用完整的逐帧缓存进行解码,实现了高效的长视频视觉语言模型推理,与完整自注意力相比,在保持最小精度损失的同时实现了线性时间预填充。
视频视觉语言模型(https://huggingface.co/papers?q=Video%20vision-language%20models)(VLM)越来越多地用于长周期和流式设置中,然而大多数视频编码器(https://huggingface.co/papers?q=video%20encoders)仍然依赖时空自注意力(https://huggingface.co/papers?q=spatiotemporal%20self-attention),导致计算量和延迟随帧数二次增长。现有的效率方法提升了可扩展性,但往往在精度上相比完整自注意力有所损失,例如通过激进的帧/标记丢弃或粗粒度的注意力近似。我们提出StateKV,一种推理时方法,通过将跨帧上下文(https://huggingface.co/papers?q=cross-frame%20context)携带在一个固定容量、基于重要性的循环状态(https://huggingface.co/papers?q=recurrent%20state)中,并配以第二个完整的逐帧缓存(https://huggingface.co/papers?q=full%20per-frame%20cache)用于解码,从而使预训练的长视频VLM适应线性时间视频预填充。在三个长视频基准(https://huggingface.co/papers?q=long-video%20benchmarks)上,涵盖三个系列和多个规模的七个模型,StateKV的结果接近完整自注意力,并持续优于主流的滑动窗口(https://huggingface.co/papers?q=sliding-window)/最近性流式近似(https://huggingface.co/papers?q=recency-based%20streaming%20approximations),且无需微调或架构更改。StateKV还降低了视频预填充的FLOPs(https://huggingface.co/papers?q=FLOPs)成本,从而在固定计算预算下通过运行更大模型实现更强的精度。这些结果表明,这是迈向可扩展长视频理解的一个实用步骤。
查看arXiv页面(https://arxiv.org/abs/2605.31598)查看PDF(https://arxiv.org/pdf/2605.31598)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31598)
在您的智能体中使用这篇论文:
hf papers read 2605\.31598
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接到此论文
在模型README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。
引用此论文的数据集0
无数据集链接到此论文
在数据集README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。
引用此论文的Space0
无Space链接到此论文
在Space README.md中引用arxiv.org/abs/2605.31598以在此页面建立链接。
包含此论文的收藏集0
无收藏集包含此论文
将这篇论文添加到收藏集(https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
Geo-Strat-RL: 从可验证任务中学习地质事件推理
本文介绍了Geo-Strat-RL,一个使用可验证奖励强化学习(RLVR)来训练视觉语言模型从地层图和地震数据中推理地质事件历史的合成环境,展示了改进的重建和跨领域迁移能力。
Dustin: 草稿增强的稀疏验证用于高效长上下文生成与推测解码
Dustin提出了一种用于推测解码的稀疏验证框架,利用草稿模型信号和稀疏注意力头评分克服KV缓存验证瓶颈,在长上下文任务中自注意力加速达27.85倍,端到端解码加速达9.17倍,且精度损失可忽略不计。
@FinanceYF5: 论文:
本文介绍了 LatentMAS,一种用于多智能体系统的无需训练框架,使大语言模型智能体能够通过共享潜在工作记忆在连续潜在空间中直接协作,实现了高达 14.6% 的准确率提升和 4 倍的推理速度提升,同时将 Token 使用量减少超过 70%。
感知RoPE的KV缓存量化比特分配方法
提出Block-GTQ,一种感知RoPE的KV缓存量化比特分配方法,通过为高能量RoPE块分配更多比特,提升长上下文性能与内存效率。
无需妥协的遗忘:固定预算下流式KV-Cache驱逐的Nexus采样
介绍了Nexus Sampling,一种无需训练的KV-cache驱逐方法,采用加权蓄水池采样代替确定性top-k选择,在固定内存预算下提升了长上下文LLM推理性能,在80%驱逐率下达到与密集注意力相匹配的性能。