@jiqizhixin: 如果你的AI能像流媒体编解码器一样“看”视频——只把令牌花在最关键的时刻?介绍……

X AI KOLs Timeline 论文

摘要

LLaVA-OneVision-2 引入了编解码流令牌化技术以实现高效的视频理解,在时间与空间基准测试上显著超越 Qwen3-VL-8B。模型、数据和代码均已开源。

如果你的AI能像流媒体编解码器一样“看”视频——只将令牌花费在最关键的时刻? 来自Glint Lab、AIM for Health Lab和MVP Lab的LLaVA-OneVision-2正式推出。 他们的秘诀?编解码流令牌化:将视频视为连续的比特成本流,利用运动线索仅将富含事件的内容打包到极小的视觉预算中。这大幅减少了令牌浪费,并稳定了长视频理解。 结果?LLaVA-OV-2-8B在全新的JumpScore时间基准测试上以+44.8分的优势碾压Qwen3-VL-8B,在视频任务上+4.3,空间任务上+5.3,跟踪任务上+15.6。一切均已开源发布。 LLaVA-OneVision-2:迈向下一代感知智能 论文:https://arxiv.org/abs/2605.25979 GitHub:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-2… 我们的报道:https://mp.weixin.qq.com/s/dechFptcXCvF30mfmC3dWA… #PapersAccepted by Jiqizhixin
查看原文
查看缓存全文

缓存时间: 2026/06/15 11:04

如果你的AI能像流式编解码器一样“看”视频——只把token花在最关键的时刻,会怎样?Glint Lab、AIM for Health Lab和MVP Lab联合推出LLaVA-OneVision-2。其秘密在于:编解码流式token化——将视频视为连续的比特成本流,利用运动线索仅将事件丰富的内容打包到极小的视觉预算中。这大幅削减了token浪费,并稳定了长视频理解。结果:LLaVA-OV-2-8B在新发布的JumpScore时序基准上以 +44.8分 碾压Qwen3-VL-8B,视频任务平均 +4.3,空间任务 +5.3,追踪任务 +15.6。全部开源发布。

LLaVA-OneVision-2: 迈向新一代感知智能
论文: https://arxiv.org/abs/2605.25979
GitHub: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-2…
我们的报告: https://mp.weixin.qq.com/s/dechFptcXCvF30mfmC3dWA…

#PapersAccepted by 机器之心


LLaVA-OneVision-2: 迈向新一代感知智能

来源: https://arxiv.org/html/2605.25979 (2026年5月25日)

摘要

我们提出 LLaVA-OneVision-2 (LLaVA-OV-2),这是 LLaVA-OneVision 系列迄今为止能力最强的视觉语言模型,在广泛的多模态基准上取得了优越性能。该模型基于原生的 OneVision 编码器,并引入窗口注意力机制,在保持原生分辨率的同时实现高效的局部计算。其关键进展是编解码流式 token 化:它将压缩视频视为连续的比特成本流,其中比特成本动态决定自适应的时序分组,而运动残差线索则将重要的空间证据浓缩到紧凑的视觉画布中。这种分配将有限的 token 预算集中在承载事件的内容上,相比固定图像组(GOP)实现了更稳定的长视频 token 压缩。共享的 3D RoPE 进一步将编解码画布、采样帧和图像统一到同一个时空坐标系统中。此外,我们围绕大规模开放监督构建了 LLaVA-OV-2 的数据和训练栈:约 8800 万条重新标注字幕的视频样本用于预训练,4400 万样本的空间语料库用于微调。我们还引入了 JumpScore,这是一个专为高频、密集重复动作中的细粒度定位而设计的时序定位基准,补足了现有视频评估中缺失的这一领域。LLaVA-OV-2 的一项突出能力是其在视频理解、时序定位、空间定位和操作轨迹推理上的统一感知能力。在 JumpScore 上,LLaVA-OneVision-2-8B 达到 74.9 JumpScore mAP,超过 Qwen3-VL-8B (30.1) 达 +44.8 分;在相同基准下匹配视觉 token 预算时,编解码流式输入相比帧采样在时序定位上提升 +9.7 分。在标准基准上,LLaVA-OneVision-2-8B 在视频任务上平均优于 Qwen3-VL-8B +4.3 分,在空间任务上 +5.3 分,在追踪任务上平均 J&F 提升 +15.6。我们的代码、数据和模型已作为开源资源发布。

参见图1: 从 token 压缩到编解码对齐的感知智能的视频理解路线图。该路线图展示了从早期帧/剪辑采样和手工视觉特征,到启发式 token 压缩、学习型 token 选择,再到 2026 年由 LLaVA-OneVision-2 代表的编解码对齐范式的演变过程。

1 引言

近期的开放大型视觉语言模型(LVLMs)(Bai et al.,2025a (https://arxiv.org/html/2605.25979#bib.bib4),b (https://arxiv.org/html/2605.25979#bib.bib5);Zhu et al.,2025 (https://arxiv.org/html/2605.25979#bib.bib110);An et al.,2025 (https://arxiv.org/html/2605.25979#bib.bib3);Yang et al.,2025a (https://arxiv.org/html/2605.25979#bib.bib87),c (https://arxiv.org/html/2605.25979#bib.bib90);Zhang et al.,2026a (https://arxiv.org/html/2605.25979#bib.bib99);Clark et al.,2026 (https://arxiv.org/html/2605.25979#bib.bib22);Liu et al.,2024b (https://arxiv.org/html/2605.25979#bib.bib52);Zhang et al.,2025a (https://arxiv.org/html/2605.25979#bib.bib98);Zohar et al.,2024 (https://arxiv.org/html/2605.25979#bib.bib111);Wang et al.,2025c (https://arxiv.org/html/2605.25979#bib.bib80);Liu et al.,2024a (https://arxiv.org/html/2605.25979#bib.bib51);Shen et al.,2024 (https://arxiv.org/html/2605.25979#bib.bib62)) 在很大程度上仍然保留了以帧为中心的观察范式:均匀帧采样混合分辨率帧,它将稀疏的高分辨率关键帧与更密集的低分辨率上下文帧结合,以满足固定的 token 预算。然而,这类设计仍然将视频简化为一个解码帧集合,既未能充分表达连续的空间结构和运动动态,也忽视了使视频独特地富有信息的预测性流信号。诸如 H.264 和 H.265/HEVC(高效视频编码)等视频编解码器将视频信号分解为空间完整的帧内编码帧(I 帧)——它建立全局上下文——以及预测帧(P 帧)——它通过运动补偿和残差编码帧间变化(Sullivan et al.,2012 (https://arxiv.org/html/2605.25979#bib.bib68))。OneVision 编码器(OV-Encoder)(Tang et al.,2026 (https://arxiv.org/html/2605.25979#bib.bib69)) 是这条路径上的一个早期原型:它引入了编解码 patch 化作为骨干侧的原语,并证明在固定 token 预算下,编解码选择的 I/P patch 相比均匀采样的帧 patch 能为语言模型提供更密集的判别性证据。

在本文中,我们认为新一代的感知智能应超越均匀观测帧的方式,转向在预测性视觉流中选择性分配证据,其中大多数像素维持上下文连续性,只有稀疏的偏差编码了判别性的语义、空间和时序结构。我们提出 LLaVA-OneVision-2,这是 LLaVA-OneVision 系列迄今为止能力最强的视觉语言模型,在广泛的多模态基准上取得了强劲性能。该模型基于具有编解码 patch 化的原生动态分辨率 OV 编码器,并附加了编解码自适应注意力接口,该接口结合了用于高效局部计算的空间窗口注意力和组可见掩码,同时保持原生分辨率。其关键进展是编解码流式 token 化:它将压缩视频视为连续的比特成本流。比特成本动态自适应地确定时序分组边界,而运动残差线索则将重要的空间证据浓缩到紧凑的、合并对齐的视觉画布中。这种流感知设计并非按经过时间或固定帧位置分配视觉 token,而是让 token 密度跟随压缩流的比特成本-残差轮廓变化,在感知转换处加密,在可预测间隔处变疏,从而比固定图像组(GOP)实现更稳定的长视频 token 压缩。共享的 3D RoPE 进一步将编解码画布、采样帧和图像统一到同一个时空坐标系统中。LLaVA-OneVision-2 采用渐进式四阶段方案进行训练,监督信号从图像定位扩展到长视频和空间推理。第一阶段混合约 8500 万图像-文本样本和 420 万条 30 秒视频字幕(30 帧);第二阶段添加大规模指令数据(约 2200 万 LLaVA-OneVision-1.5 样本和约 2400 万 FineVision 样本),以及 270 万条 30-60 秒和 70 万条 60-180 秒视频字幕(60/90 帧);第三阶段扩展到长视频,包含视频指令语料库和 35 万条 10-15 分钟字幕(384 帧);第四阶段通过变长 GOP 编解码管线以 384/768 帧重新编码长视频,同时添加 LLaVA-OneVision-2-Spatial-4M 用于 2D/3D 空间监督。在所有阶段,编解码 patch 化的视频、均匀采样的视频以及图像/平铺输入在训练中交替使用。

现有视频基准未能充分覆盖高频、密集重复动作中的细粒度定位,其挑战不仅在于识别事件类别,更在于从众多视觉相似的循环中定位正确的动作实例。因此,我们引入了 JumpScore,这是一个专门设计用于评估感知转换级别定位的时序定位基准。在 JumpScore 上,LLaVA-OneVision-2-8B 达到 74.9 JumpScore mAP,大幅优于 Qwen3-VL-8B (30.1) 达 +44.8 分。在相同基准和匹配视觉 token 预算下,编解码流式输入相比帧采样输入在时序定位上提升 +9.7 分。在模型级别,LLaVA-OneVision-2-8B 在视频基准上平均优于 Qwen3-VL-8B +4.3 分,在空间基准上 +5.3 分,在追踪基准上平均 J&F 提升 +15.6。我们的实验揭示:编解码流式输入有利于由粗粒度时序结构主导的长视频任务,如时序定位、事件理解、事件排序和高亮检索,因为它将 token 重新分配到高比特成本区间和高残差区域。相比之下,对于细节敏感的查询(其中决定性线索是静态、细粒度、空间小、轨迹特定或边界级别的),帧采样仍然更可取,因为密集的帧观测更好地保留了局部纹理、微妙的表观线索和帧间连续性。

总之,LLaVA-OneVision-2 的主要贡献如下:

    1. LLaVA-OneVision-2 是一个编解码对齐的多模态大语言模型(MLLM),其编解码流式 token 化将视频视为连续的比特成本流,使视觉 token 分配与比特成本动态和运动残差证据对齐,从而实现稳定的长视频 token 压缩。
    1. 我们使用约 8800 万条重新标注字幕的视频样本和一个 4400 万样本的 2D/3D 空间语料库扩展了训练规模,并引入了 JumpScore——一个专为高频、密集动作中细粒度视频定位而设计的时序定位基准。我们的代码、数据和模型已发布。
    1. LLaVA-OV-2-8B 相较于 Qwen3-VL-8B 持续提升:18 个视频任务平均提升 +4.3 分,11 个空间推理任务提升 +5.3 分,4 个追踪任务平均 J&F 提升 +15.6。编解码流式输入相比帧采样在时序定位上进一步提升 +9.7 分,LLaVA-OV-2-8B 在 JumpScore 上达到 74.9 mAP,而 Qwen3-VL-8B 为 30.1(+44.8 分)。

2 架构

本节描述 LLaVA-OneVision-2 的模型侧设计,如图 2 (https://arxiv.org/html/2605.25979#S2.F2) 所示。第 2.1 节 (https://arxiv.org/html/2605.25979#S2.SS1) 首先给出完整的多模态栈,包含视觉编码器、轻量级视觉-语言连接器和自回归语言模型解码器。第 2.2 节 (https://arxiv.org/html/2605.25979#S2.SS2) 则聚焦于视觉编码器接口:如何将采样帧、编解码 patch 化视频和静态图像表示为带有 token 元数据和组可见注意力掩码的视觉画布。

2.1 LLaVA-OneVision-2

视觉编码器

LLaVA-OneVision-2 采用 OneVision 编码器 (Tang et al.,2026 (https://arxiv.org/html/2605.25979#bib.bib69)) 作为共享骨干,用于采样帧视频、编解码流视频和静态图像,将所有输入映射到统一的视觉 token 接口,包含 patch 嵌入、3D 位置坐标和编码器侧的组分配。共享的 3D RoPE 提供公共的时空坐标系统,而组可见掩码定义 token 可见性:采样帧和 IPPP 风格输入使用固定的四槽组,静态图像使用退化的单时序组,编解码流输入使用比特成本自适应 GOP id,用于对来自相同变长 GOP 的 P 画布 token 进行分组。遵循原生分辨率视觉变换器设计 (Dehghani et al.,2023 (https://arxiv.org/html/2605.25979#bib.bib23); Beyer et al.,2023 (https://arxiv.org/html/2605.25979#bib.bib8); Tschannen et al.,2025 (https://arxiv.org/html/2605.25979#bib.bib72); Bai et al.,2025b (https://arxiv.org/html/2605.25979#bib.bib5)),空间窗口注意力用于大多数视觉层,以实现高效的原生分辨率处理,并且它与视频级别的分组规则正交。

视觉-语言连接器

一个轻量级的两层 MLP 将 OneVision 编码器表示映射到语言模型嵌入空间。由于采样帧视频、IPPP 风格窗口、编解码派生的 I/P 画布和静态图像共享相同的编码器输出格式,该连接器在不同输入形式下保持接口不变。因此,编解码流处理仅改变呈现给视觉编码器的证据结构,而视觉-语言对齐接口保持不变。

大型语言模型

投影后的视觉 token 与文本指令配对,由共享的 Qwen3-8B 自回归语言模型在监督式下一个 token 目标下解码。未引入编解码专用适配器、重建解码器或语言侧分支。因此,帧采样和编解码流输入仅在证据选择和注意力组分配上有所不同,而编码器-连接器-解码器路径在架构上完全相同。

2.2 编解码流式 Token 化

参见图 2: LLaVA-OneVision-2 架构。该模型将编解码流视频、采样帧视频和原生分辨率图像统一到共享的视觉 token 接口下。编解码输入编码为 I/P 视觉画布,采样视频为帧 token 序列,图像为空间视觉 token;所有输入均由 OneVision 编码器处理。生成的视觉嵌入与文本 token 组合,由预训练的自回归语言模型解码,从而支持单个架构同时处理视频和图像理解。

统一的视觉 token 接口

对于视频 V,编解码前端输出视觉画布、token 元数据和自适应时序分组: C(V) = (X, U, G), X = { (X_s, l_s) }{s=0}^{S-1}, l_s ∈ {I, P}, U = { u = (ι_u, f_u, p_can_u, p_src_u, κ_u) }{u=1}^{N}. (1)

这里 X 包含 S 个 I/P 画布,U 包含 N 个视觉 token 记录,G = { G_k } 表示导出的编解码组。对于 token u,ι_u 是画布索引,f_u 是源帧 id,p_can_u 是打包的画布坐标,p_src_u 是源帧 patch 坐标,κ_u 是比特成本自适应组 id。打包坐标支持紧凑的画布构建,而源坐标保留每个 token 的空间原点,用于时空编码。连接器和语言模型并不直接消费这些编解码字段;编解码流式 token 化通过选择视觉证据和分配 token 可见性组来影响模型。

图像组(GOP)划分

编解码流式 token 化并非按经过时间分配视觉槽,而是根据压缩流的时间比特成本轮廓对视频进行划分。我们将视频分成 B 个长度为 Δ 的区间,并聚合每个区间内预测帧的包大小: e_b = ∑{q∈PPB} bytes(q) · 1{ τ(q) ∈ [bΔ, (b+1)Δ) }, θ = ∑{b=0}^{B-1} e_b max(1, K_tar). e_{

相似文章

LLaVA-OneVision-2:迈向下一代感知智能

Hugging Face Daily Papers

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。

AdaCodec:面向视频多模态大模型的预测性视觉编码

Hugging Face Daily Papers

AdaCodec 通过仅在场景预测失败时传输完整视觉标记,否则使用紧凑的帧间变化描述,从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下,它优于逐帧 RGB 基线,并且在使用显著更少标记的情况下取得更好或相当的结果,将首令牌延迟从 9.26 秒降至 1.62 秒。

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers

LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。

LiteFrame 扩展视频大语言模型效率(6分钟阅读)

TLDR AI

LiteFrame 为视频大语言模型引入了一种高效的视频编码器,采用压缩令牌蒸馏技术,在保持准确率的同时,能够处理多达8倍的帧数并降低35%的延迟,为长视频理解开创了新的帕累托前沿。

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。