AVOC: 通过检索启发的令牌压缩增强全模态大语言模型中的小时级音视频理解

arXiv cs.CL 2026/06/24 04:00 论文

audio-video token-compression multimodal long-context retrieval large-language-models

摘要

AVOC 提出了一种针对全模态大语言模型的检索启发的令牌压缩方法，通过基于相关性、重要性和多样性选择信息丰富的令牌，有效处理长达一小时的音视频输入。该框架在长时音视频理解基准测试中取得了最先进的结果，大幅超越了先前的方法。

arXiv:2606.24286v1 公告类型：新摘要：多模态大语言模型在短时音视频理解方面取得了显著进展，但长时音视频理解仍面临上下文窗口有限和严重信息冗余的挑战。为了解决这些瓶颈，我们提出了 AVOC，一个用于全模态大语言模型中长时音视频理解的框架。AVOC 在模态编码器与大语言模型主干之间引入了一个可学习的令牌压缩模块。我们将多模态令牌压缩重新定义为一个 top-$K$ 检索问题：在给定的上下文预算下，该模块必须检索出最有助于回答用户查询的紧凑令牌子集。我们从信息检索中三个经典准则中汲取灵感，以从大量候选中选择信息单元：相关性、重要性和多样性。AVOC 将每个准则实例化为针对音视频理解的定制机制，并将它们集成到一个统一的检索式压缩流程中。实验表明，AVOC 在长时音视频基准测试中取得了最先进的性能，在 OmniVideoBench 和 LVOmniBench 上的平均准确率分别超过第二名模型 4.9 和 5.5 个点。此外，AVOC 在一小时以内的音视频大海捞针任务中保持了稳健的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:46

# AVOC：基于检索启发的令牌压缩，增强全模态大语言模型中小时级音视频理解

来源：https://arxiv.org/html/2606.24286

陈宜静¹，谭文辉¹，于晓宇¹，王雨悦¹，程鑫¹，关凯斯¹，蒋昊²，李向阳²，朱国杰²，宋瑞华¹

¹中国人民大学高瓴人工智能学院  
²华为技术有限公司  

###### 摘要

多模态大语言模型在短时音视频理解方面取得了显著进展，但长时音视频理解仍受限于上下文窗口有限和信息严重冗余。为解决这些瓶颈，我们提出 AVOC，一个用于全模态大语言模型中长时音视频理解的框架。AVOC 在模态编码器与 LLM 主干之间引入了一个可学习的令牌压缩模块。我们将多模态令牌压缩重新定义为 top-K 检索问题：给定固定的上下文预算，模块必须检索出一个紧凑的令牌子集，该子集最能支持回答用户查询。我们借鉴信息检索中从大型候选池中选择信息单元的三种经典准则：相关性、重要性和多样性。AVOC 将每个准则实例化为针对音视频理解的定制机制，并将它们整合到一个统一的检索式压缩流程中。实验表明，AVOC 在长时音视频基准测试中取得了最先进的性能，在 OmniVideoBench 和 LVOmniBench 上的平均准确率分别超过第二名模型 4.9 和 5.5 个百分点。此外，AVOC 在长达一小时的音视频“大海捞针”任务中保持了稳健的性能。

## 1 引言

多模态大语言模型（MLLMs）Xue 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib22)); Team (2025 (https://arxiv.org/html/2606.24286#bib.bib34)); Cheng 等人 (2024 (https://arxiv.org/html/2606.24286#bib.bib37)); Tang 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib38)); Cui 等人 (2026 (https://arxiv.org/html/2606.24286#bib.bib26)) 在连接视觉、音频和自然语言方面取得了显著进展。通过将视觉和音频编码器与大语言模型集成，现有方法在短时音视频任务（如音视频问答、视频和音频字幕生成以及多模态对话）上表现良好 Chao 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib39)); Zhou 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib40)); Li 等人 (2024b (https://arxiv.org/html/2606.24286#bib.bib41),2022 (https://arxiv.org/html/2606.24286#bib.bib42))。然而，现实世界的多模态信息（例如电影、会议记录和教程）通常跨度极长。这要求模型不仅要理解短时事件，还要能够推理并在小时级的音视频上下文中定位关键信息。尽管需求强烈，赋予模型小时级音视频理解能力仍面临严峻挑战。一方面，MLLMs 有限的上下文窗口无法直接容纳极长音视频流产生的大量令牌序列。另一方面，原始音视频流存在严重的信息冗余，这不仅浪费了宝贵的上下文预算，还会稀释关键线索，降低模型在长序列上的理解质量。如图 1 (https://arxiv.org/html/2606.24286#S1.F1) 所示，现有的上下文缩减策略在极长音视频内容上表现不足。内容无关的采样面临根本性权衡：稀疏采样会遗漏关键短时事件，而密集采样则迅速耗尽上下文窗口，导致严重的序列截断。最近的全模态压缩方法 Tao 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib19)); Ding 等人 (2026 (https://arxiv.org/html/2606.24286#bib.bib21)) 填补了这一空白，但它们通常采用僵化的非对称设计，即一种模态驱动另一种模态的压缩。结果，当引导模态信号较弱或稀疏时，重要事件可能被丢弃。

为解决上述问题，我们提出一个名为 AVOC（基于检索启发的令牌压缩增强全模态 LLM 的小时级音视频理解）的新框架。我们的出发点是将多模态令牌压缩重新定义为 **top-K 检索问题**：给定固定的上下文预算和大量候选令牌，模型必须检索出一个紧凑的子集，该子集最能支持回答用户查询。这种重新表述使我们能够利用经典信息检索（IR）的原则，在有限的容量预算下选择信息单元。在 IR 长期发展起来的用于排序和选择信息单元的准则中，有三个与我们的设置特别相关：基于查询的**相关性**，优先考虑与用户查询相关的单元 Robertson 和 Zaragoza (2009 (https://arxiv.org/html/2606.24286#bib.bib54)); Karpukhin 等人 (2020 (https://arxiv.org/html/2606.24286#bib.bib55)); 与查询无关的**重要性**，捕捉单元内在的信息量，与具体查询无关 Page 等人 (1999 (https://arxiv.org/html/2606.24286#bib.bib53)); 以及结果的**多样性**，惩罚所选单元之间的冗余 Carbonell 和 Goldstein (1998 (https://arxiv.org/html/2606.24286#bib.bib46)); Clarke 等人 (2008 (https://arxiv.org/html/2606.24286#bib.bib50))。AVOC 通过一个可学习的压缩模块将这些 IR 原则适应于长时音视频理解，该模块为每个准则实现了一个定制机制。**相关性**通过文本引导的交叉注意力计算，根据用户查询对每个令牌进行评分。**重要性**通过每个时间块内的双向视频-音频交叉注意力计算，提供一个与查询无关的信号，当文本查询稀疏时补充相关性。**多样性**通过时间感知的最大边际相关性来实施，惩罚局部时间窗口内的相似性，抑制冗余的相邻令牌，同时保留时间上相距较远的重复事件。这三种机制共同在紧凑的上下文预算下生成一个紧凑且信息丰富的令牌序列。

参见图注
图 1：长时音视频理解的上下文缩减策略比较。

本文的主要贡献总结如下：

- • 从多模态令牌压缩作为多模态令牌上的 top-K 检索问题的新视角出发，我们设计了一个可学习的压缩模块，该模块通过定制机制实例化了三种经典的 IR 准则：用于基于查询的**相关性**的文本引导交叉注意力，用于每个时间块内与查询无关的**重要性**的双向视频-音频交叉注意力，以及用于局部**多样性**的时间感知最大边际相关性选择。
- • 基于此压缩模块，我们开发了 AVOC，一个能够处理小时级音视频流的全模态大语言模型，在紧凑的上下文预算下实现对超长多模态内容的整体理解和细粒度检索。
- • 大量实验表明，AVOC 在多个长时音视频理解基准测试中取得了最先进的性能，在 OmniVideoBench 和 LVOmniBench 上的平均准确率分别超过第二名方法 4.9 和 5.5 个百分点，并在长达一小时的音视频“大海捞针”任务中保持稳健的准确率。

## 2 相关工作

#### 视觉大语言模型中的长视频理解。
近年来，将视觉语言模型（VLM）扩展到长视频理解方面取得了显著进展 Song 等人 (2024 (https://arxiv.org/html/2606.24286#bib.bib12)); Zhang 等人 (2025a (https://arxiv.org/html/2606.24286#bib.bib2)); Chen 等人 (2025c (https://arxiv.org/html/2606.24286#bib.bib4)); Tan 等人 (2026 (https://arxiv.org/html/2606.24286#bib.bib43)); Shu 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib18)); Li 等人 (2025b (https://arxiv.org/html/2606.24286#bib.bib13))。一条研究方向集中于扩展上下文窗口以容纳完整的令牌序列 Liu 等人 (2025a (https://arxiv.org/html/2606.24286#bib.bib1)); Zhang 等人 (2025a (https://arxiv.org/html/2606.24286#bib.bib2)); Chen 等人 (2025c (https://arxiv.org/html/2606.24286#bib.bib4),b (https://arxiv.org/html/2606.24286#bib.bib5)); Wei 和 Chen (2025 (https://arxiv.org/html/2606.24286#bib.bib3))，尽管这种方法在长序列长度下计算成本高昂，且未能解决视频数据中严重的信息冗余问题。为降低计算成本和冗余，出现了大量基于压缩的方法。这些方法通常属于四种底层机制 Shao 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib6))：基于变换的方法，采用空间或时间池化 Maaz 等人 (2024 (https://arxiv.org/html/2606.24286#bib.bib8)); Weng 等人 (2024 (https://arxiv.org/html/2606.24286#bib.bib9)); 基于相似度的技术，将连续帧中冗余的令牌分组和合并 Jin 等人 (2024 (https://arxiv.org/html/2606.24286#bib.bib10)); Li 等人 (2025b (https://arxiv.org/html/2606.24286#bib.bib13)); Shen 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib11)); Song 等人 (2024 (https://arxiv.org/html/2606.24286#bib.bib12)); 基于注意力的方法，根据注意力稀疏性修剪令牌 Chen 等人 (2024 (https://arxiv.org/html/2606.24286#bib.bib14)); Yang 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib16)); Zhang 等人 (2026 (https://arxiv.org/html/2606.24286#bib.bib15),2025b (https://arxiv.org/html/2606.24286#bib.bib17)); 以及基于查询的策略，利用动态记忆库或跨模态令牌选择进行令牌蒸馏 Song 等人 (2024 (https://arxiv.org/html/2606.24286#bib.bib12)); Shu 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib18)); Shen 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib11)); Li 等人 (2024a (https://arxiv.org/html/2606.24286#bib.bib7))。尽管取得了这些进展，当前方法大多忽略了伴随的音频流。在现实世界的多模态内容中，如电影、教程和会议，听觉信号携带着不可替代的语义上下文。通过严格依赖压缩后的视觉线索，现有的长视频 VLM 不可避免地遭受语义理解不完整的问题，忽略了诸如语音、环境音和音乐等对整体理解至关重要的听觉信息。

#### 全模态大语言模型中的统一音视频理解。
为了克服 VLM 的视觉中心限制，最近一些研究转向开发能够统一音视频理解的全模态大语言模型（OLLMs）。为了将高分辨率视频和连续高采样率音频生成的巨量信息压缩到有限的上下文窗口中，早期的 OLLMs 主要依赖内容无关的操作，如稀疏时间子采样、基本平均池化或简单的序列截断 Xu 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib22)); Liu 等人 (2025b (https://arxiv.org/html/2606.24286#bib.bib24)); Ye 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib23))。由于缺乏内容感知且压缩率有限，这些方法无法使模型理解极长的音视频内容。为解决这些瓶颈，最近的研究引入了动态令牌压缩策略以优化上下文窗口利用率。OmniZip Tao 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib19)) 利用显著的音频令牌捕捉信息密度，并指导相应视频令牌的修剪率。相反，OmniSIFT Ding 等人 (2026 (https://arxiv.org/html/2606.24286#bib.bib21)) 指出人类感知是以视觉为锚点的；它首先修剪时空视频冗余，然后利用得到的视觉锚点选择信息丰富的音频令牌。OmniZip Tao 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib19)) 和 OmniSIFT Ding 等人 (2026 (https://arxiv.org/html/2606.24286#bib.bib21)) 都依赖于单向依赖，即视频或音频作为主导模态驱动另一种模态的压缩。当主导模态稀疏时，这有破坏关键信息的风险。这些差距凸显了对称且自适应的压缩架构的必要性，该架构能更好地建模跨模态关系，并在上下文窗口内最大化信息密度，且不受限制性非对称偏差的影响。

## 3 方法论

参见图注
图 2：AVOC 概览。压缩模块将交错的视频-音频令牌序列压缩为紧凑子集，然后传递给 LLM，受三种检索启发的准则指导：相关性、重要性和多样性。

为了在 OLLMs 中实现小时级音视频理解，我们引入了一个动态压缩模块，该模块联合将连续的视觉和听觉流压缩成高度信息表示的紧凑序列。如图 2 (https://arxiv.org/html/2606.24286#S3.F2) 所示，该模块策略性地放置在模态编码阶段和大语言模型主干之间。

### 3.1 问题表述与新视角

遵循 OLLMs 的常见做法 Xu 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib22)); Team (2025 (https://arxiv.org/html/2606.24286#bib.bib34)); Cui 等人 (2026 (https://arxiv.org/html/2606.24286#bib.bib26)); Ye 等人 (2025 (https://arxiv.org/html/2606.24286#bib.bib23))，视频和音频流首先被分别编码，并分组为相等时长的时域块，每个块拼接来自同一时间窗口的视频和音频令牌。然后这些块按顺序排列，形成统一的多模态令牌序列。设 X={x1,x2,...,xN} 表示完整的交错多模态令牌序列，其中每个令牌 xi 带有时域块索引 τi 和模态标签 mi∈{V,A}。给定文本查询 T 和固定的令牌预算 K，我们为视频帧叠加“秘密数字...”；(ii) 合成一个**音频 needle**，通过文本转语音朗读“秘密词是...”并拼接到音频流中。评估时，视频以 1 FPS 采样，与完整的伴随音频流一起输入模型。我们分别评估视觉和听觉针，提示模型“秘密数字是什么？”并要求它定位并从目标模态中提取数字字符串。我们迭代不同的针深度（针放置的位置）和音视频长度（最长 3600 秒）来衡量性能，并报告准确率作为预测数字字符串与真实字符串的精确匹配率。更详细的评估设置见附录 A.1 (https://arxiv.org/html/2606.24286#A1.SS1)。

参见图注
图 3：音视频“大海捞针”结果。每个单元格报告在给定音视频时长（x轴）和相对针深度（y轴）下的检索准确率。

#### 性能。
如图 3 (https://arxiv.org/html/2606.24286#S4.F3) 所示，OmniZip 表现出明显的时长引发的崩溃：其在视觉针上的准确率在超过 2000 秒后显著下降（图 3 (https://arxiv.org/html/2606.24286#S4.F3)a 和

AVOC: 通过检索启发的令牌压缩增强全模态大语言模型中的小时级音视频理解

相似文章

OmniMem: 面向流式音视频大模型的扰动感知记忆压缩

AdaCodec：面向视频多模态大模型的预测性视觉编码

LatentOmni：通过统一视听潜在推理重新思考全模态理解

从感知到决策：多模态大语言模型中听觉与视觉感知的信息流

LLaVA-OneVision-2：迈向下一代感知智能

提交意见反馈