@jiqizhixin: 如果你的AI能像流媒体编解码器一样“看”视频——只把令牌花在最关键的时刻？介绍……

X AI KOLs Timeline 2026/06/15 00:39 论文

vision-language-model video-understanding token-compression open-source multimodal codec-stream

摘要

LLaVA-OneVision-2 引入了编解码流令牌化技术以实现高效的视频理解，在时间与空间基准测试上显著超越 Qwen3-VL-8B。模型、数据和代码均已开源。

如果你的AI能像流媒体编解码器一样“看”视频——只将令牌花费在最关键的时刻？来自Glint Lab、AIM for Health Lab和MVP Lab的LLaVA-OneVision-2正式推出。他们的秘诀？编解码流令牌化：将视频视为连续的比特成本流，利用运动线索仅将富含事件的内容打包到极小的视觉预算中。这大幅减少了令牌浪费，并稳定了长视频理解。结果？LLaVA-OV-2-8B在全新的JumpScore时间基准测试上以+44.8分的优势碾压Qwen3-VL-8B，在视频任务上+4.3，空间任务上+5.3，跟踪任务上+15.6。一切均已开源发布。 LLaVA-OneVision-2：迈向下一代感知智能论文：https://arxiv.org/abs/2605.25979 GitHub：https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-2… 我们的报道：https://mp.weixin.qq.com/s/dechFptcXCvF30mfmC3dWA… #PapersAccepted by Jiqizhixin

查看原文

查看缓存全文

缓存时间: 2026/06/15 11:04

如果你的AI能像流式编解码器一样“看”视频——只把token花在最关键的时刻，会怎样？Glint Lab、AIM for Health Lab和MVP Lab联合推出LLaVA-OneVision-2。其秘密在于：编解码流式token化——将视频视为连续的比特成本流，利用运动线索仅将事件丰富的内容打包到极小的视觉预算中。这大幅削减了token浪费，并稳定了长视频理解。结果：LLaVA-OV-2-8B在新发布的JumpScore时序基准上以 +44.8分 碾压Qwen3-VL-8B，视频任务平均 +4.3，空间任务 +5.3，追踪任务 +15.6。全部开源发布。

LLaVA-OneVision-2: 迈向新一代感知智能
论文: https://arxiv.org/abs/2605.25979
GitHub: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-2…
我们的报告: https://mp.weixin.qq.com/s/dechFptcXCvF30mfmC3dWA…

#PapersAccepted by 机器之心

LLaVA-OneVision-2: 迈向新一代感知智能

来源: https://arxiv.org/html/2605.25979 (2026年5月25日)

摘要

我们提出 LLaVA-OneVision-2 (LLaVA-OV-2)，这是 LLaVA-OneVision 系列迄今为止能力最强的视觉语言模型，在广泛的多模态基准上取得了优越性能。该模型基于原生的 OneVision 编码器，并引入窗口注意力机制，在保持原生分辨率的同时实现高效的局部计算。其关键进展是编解码流式 token 化：它将压缩视频视为连续的比特成本流，其中比特成本动态决定自适应的时序分组，而运动残差线索则将重要的空间证据浓缩到紧凑的视觉画布中。这种分配将有限的 token 预算集中在承载事件的内容上，相比固定图像组（GOP）实现了更稳定的长视频 token 压缩。共享的 3D RoPE 进一步将编解码画布、采样帧和图像统一到同一个时空坐标系统中。此外，我们围绕大规模开放监督构建了 LLaVA-OV-2 的数据和训练栈：约 8800 万条重新标注字幕的视频样本用于预训练，4400 万样本的空间语料库用于微调。我们还引入了 JumpScore，这是一个专为高频、密集重复动作中的细粒度定位而设计的时序定位基准，补足了现有视频评估中缺失的这一领域。LLaVA-OV-2 的一项突出能力是其在视频理解、时序定位、空间定位和操作轨迹推理上的统一感知能力。在 JumpScore 上，LLaVA-OneVision-2-8B 达到 74.9 JumpScore mAP，超过 Qwen3-VL-8B (30.1) 达 +44.8 分；在相同基准下匹配视觉 token 预算时，编解码流式输入相比帧采样在时序定位上提升 +9.7 分。在标准基准上，LLaVA-OneVision-2-8B 在视频任务上平均优于 Qwen3-VL-8B +4.3 分，在空间任务上 +5.3 分，在追踪任务上平均 J&F 提升 +15.6。我们的代码、数据和模型已作为开源资源发布。

参见图1: 从 token 压缩到编解码对齐的感知智能的视频理解路线图。该路线图展示了从早期帧/剪辑采样和手工视觉特征，到启发式 token 压缩、学习型 token 选择，再到 2026 年由 LLaVA-OneVision-2 代表的编解码对齐范式的演变过程。

1 引言

近期的开放大型视觉语言模型（LVLMs）(Bai et al.,2025a (https://arxiv.org/html/2605.25979#bib.bib4),b (https://arxiv.org/html/2605.25979#bib.bib5);Zhu et al.,2025 (https://arxiv.org/html/2605.25979#bib.bib110);An et al.,2025 (https://arxiv.org/html/2605.25979#bib.bib3);Yang et al.,2025a (https://arxiv.org/html/2605.25979#bib.bib87),c (https://arxiv.org/html/2605.25979#bib.bib90);Zhang et al.,2026a (https://arxiv.org/html/2605.25979#bib.bib99);Clark et al.,2026 (https://arxiv.org/html/2605.25979#bib.bib22);Liu et al.,2024b (https://arxiv.org/html/2605.25979#bib.bib52);Zhang et al.,2025a (https://arxiv.org/html/2605.25979#bib.bib98);Zohar et al.,2024 (https://arxiv.org/html/2605.25979#bib.bib111);Wang et al.,2025c (https://arxiv.org/html/2605.25979#bib.bib80);Liu et al.,2024a (https://arxiv.org/html/2605.25979#bib.bib51);Shen et al.,2024 (https://arxiv.org/html/2605.25979#bib.bib62)) 在很大程度上仍然保留了以帧为中心的观察范式：均匀帧采样或混合分辨率帧，它将稀疏的高分辨率关键帧与更密集的低分辨率上下文帧结合，以满足固定的 token 预算。然而，这类设计仍然将视频简化为一个解码帧集合，既未能充分表达连续的空间结构和运动动态，也忽视了使视频独特地富有信息的预测性流信号。诸如 H.264 和 H.265/HEVC（高效视频编码）等视频编解码器将视频信号分解为空间完整的帧内编码帧（I 帧）——它建立全局上下文——以及预测帧（P 帧）——它通过运动补偿和残差编码帧间变化（Sullivan et al.,2012 (https://arxiv.org/html/2605.25979#bib.bib68)）。OneVision 编码器（OV-Encoder）(Tang et al.,2026 (https://arxiv.org/html/2605.25979#bib.bib69)) 是这条路径上的一个早期原型：它引入了编解码 patch 化作为骨干侧的原语，并证明在固定 token 预算下，编解码选择的 I/P patch 相比均匀采样的帧 patch 能为语言模型提供更密集的判别性证据。

在本文中，我们认为新一代的感知智能应超越均匀观测帧的方式，转向在预测性视觉流中选择性分配证据，其中大多数像素维持上下文连续性，只有稀疏的偏差编码了判别性的语义、空间和时序结构。我们提出 LLaVA-OneVision-2，这是 LLaVA-OneVision 系列迄今为止能力最强的视觉语言模型，在广泛的多模态基准上取得了强劲性能。该模型基于具有编解码 patch 化的原生动态分辨率 OV 编码器，并附加了编解码自适应注意力接口，该接口结合了用于高效局部计算的空间窗口注意力和组可见掩码，同时保持原生分辨率。其关键进展是编解码流式 token 化：它将压缩视频视为连续的比特成本流。比特成本动态自适应地确定时序分组边界，而运动残差线索则将重要的空间证据浓缩到紧凑的、合并对齐的视觉画布中。这种流感知设计并非按经过时间或固定帧位置分配视觉 token，而是让 token 密度跟随压缩流的比特成本-残差轮廓变化，在感知转换处加密，在可预测间隔处变疏，从而比固定图像组（GOP）实现更稳定的长视频 token 压缩。共享的 3D RoPE 进一步将编解码画布、采样帧和图像统一到同一个时空坐标系统中。LLaVA-OneVision-2 采用渐进式四阶段方案进行训练，监督信号从图像定位扩展到长视频和空间推理。第一阶段混合约 8500 万图像-文本样本和 420 万条 30 秒视频字幕（30 帧）；第二阶段添加大规模指令数据（约 2200 万 LLaVA-OneVision-1.5 样本和约 2400 万 FineVision 样本），以及 270 万条 30-60 秒和 70 万条 60-180 秒视频字幕（60/90 帧）；第三阶段扩展到长视频，包含视频指令语料库和 35 万条 10-15 分钟字幕（384 帧）；第四阶段通过变长 GOP 编解码管线以 384/768 帧重新编码长视频，同时添加 LLaVA-OneVision-2-Spatial-4M 用于 2D/3D 空间监督。在所有阶段，编解码 patch 化的视频、均匀采样的视频以及图像/平铺输入在训练中交替使用。

现有视频基准未能充分覆盖高频、密集重复动作中的细粒度定位，其挑战不仅在于识别事件类别，更在于从众多视觉相似的循环中定位正确的动作实例。因此，我们引入了 JumpScore，这是一个专门设计用于评估感知转换级别定位的时序定位基准。在 JumpScore 上，LLaVA-OneVision-2-8B 达到 74.9 JumpScore mAP，大幅优于 Qwen3-VL-8B (30.1) 达 +44.8 分。在相同基准和匹配视觉 token 预算下，编解码流式输入相比帧采样输入在时序定位上提升 +9.7 分。在模型级别，LLaVA-OneVision-2-8B 在视频基准上平均优于 Qwen3-VL-8B +4.3 分，在空间基准上 +5.3 分，在追踪基准上平均 J&F 提升 +15.6。我们的实验揭示：编解码流式输入有利于由粗粒度时序结构主导的长视频任务，如时序定位、事件理解、事件排序和高亮检索，因为它将 token 重新分配到高比特成本区间和高残差区域。相比之下，对于细节敏感的查询（其中决定性线索是静态、细粒度、空间小、轨迹特定或边界级别的），帧采样仍然更可取，因为密集的帧观测更好地保留了局部纹理、微妙的表观线索和帧间连续性。

总之，LLaVA-OneVision-2 的主要贡献如下：

1. LLaVA-OneVision-2 是一个编解码对齐的多模态大语言模型（MLLM），其编解码流式 token 化将视频视为连续的比特成本流，使视觉 token 分配与比特成本动态和运动残差证据对齐，从而实现稳定的长视频 token 压缩。
1. 我们使用约 8800 万条重新标注字幕的视频样本和一个 4400 万样本的 2D/3D 空间语料库扩展了训练规模，并引入了 JumpScore——一个专为高频、密集动作中细粒度视频定位而设计的时序定位基准。我们的代码、数据和模型已发布。
1. LLaVA-OV-2-8B 相较于 Qwen3-VL-8B 持续提升：18 个视频任务平均提升 +4.3 分，11 个空间推理任务提升 +5.3 分，4 个追踪任务平均 J&F 提升 +15.6。编解码流式输入相比帧采样在时序定位上进一步提升 +9.7 分，LLaVA-OV-2-8B 在 JumpScore 上达到 74.9 mAP，而 Qwen3-VL-8B 为 30.1（+44.8 分）。

2 架构

本节描述 LLaVA-OneVision-2 的模型侧设计，如图 2 (https://arxiv.org/html/2605.25979#S2.F2) 所示。第 2.1 节 (https://arxiv.org/html/2605.25979#S2.SS1) 首先给出完整的多模态栈，包含视觉编码器、轻量级视觉-语言连接器和自回归语言模型解码器。第 2.2 节 (https://arxiv.org/html/2605.25979#S2.SS2) 则聚焦于视觉编码器接口：如何将采样帧、编解码 patch 化视频和静态图像表示为带有 token 元数据和组可见注意力掩码的视觉画布。

2.1 LLaVA-OneVision-2

视觉编码器

LLaVA-OneVision-2 采用 OneVision 编码器 (Tang et al.,2026 (https://arxiv.org/html/2605.25979#bib.bib69)) 作为共享骨干，用于采样帧视频、编解码流视频和静态图像，将所有输入映射到统一的视觉 token 接口，包含 patch 嵌入、3D 位置坐标和编码器侧的组分配。共享的 3D RoPE 提供公共的时空坐标系统，而组可见掩码定义 token 可见性：采样帧和 IPPP 风格输入使用固定的四槽组，静态图像使用退化的单时序组，编解码流输入使用比特成本自适应 GOP id，用于对来自相同变长 GOP 的 P 画布 token 进行分组。遵循原生分辨率视觉变换器设计 (Dehghani et al.,2023 (https://arxiv.org/html/2605.25979#bib.bib23); Beyer et al.,2023 (https://arxiv.org/html/2605.25979#bib.bib8); Tschannen et al.,2025 (https://arxiv.org/html/2605.25979#bib.bib72); Bai et al.,2025b (https://arxiv.org/html/2605.25979#bib.bib5))，空间窗口注意力用于大多数视觉层，以实现高效的原生分辨率处理，并且它与视频级别的分组规则正交。

视觉-语言连接器

一个轻量级的两层 MLP 将 OneVision 编码器表示映射到语言模型嵌入空间。由于采样帧视频、IPPP 风格窗口、编解码派生的 I/P 画布和静态图像共享相同的编码器输出格式，该连接器在不同输入形式下保持接口不变。因此，编解码流处理仅改变呈现给视觉编码器的证据结构，而视觉-语言对齐接口保持不变。

大型语言模型

投影后的视觉 token 与文本指令配对，由共享的 Qwen3-8B 自回归语言模型在监督式下一个 token 目标下解码。未引入编解码专用适配器、重建解码器或语言侧分支。因此，帧采样和编解码流输入仅在证据选择和注意力组分配上有所不同，而编码器-连接器-解码器路径在架构上完全相同。

2.2 编解码流式 Token 化

参见图 2: LLaVA-OneVision-2 架构。该模型将编解码流视频、采样帧视频和原生分辨率图像统一到共享的视觉 token 接口下。编解码输入编码为 I/P 视觉画布，采样视频为帧 token 序列，图像为空间视觉 token；所有输入均由 OneVision 编码器处理。生成的视觉嵌入与文本 token 组合，由预训练的自回归语言模型解码，从而支持单个架构同时处理视频和图像理解。

统一的视觉 token 接口

对于视频 V，编解码前端输出视觉画布、token 元数据和自适应时序分组： C(V) = (X, U, G), X = { (X_s, l_s) }{s=0}^{S-1}, l_s ∈ {I, P}, U = { u = (ι_u, f_u, p_can_u, p_src_u, κ_u) }{u=1}^{N}. (1)

这里 X 包含 S 个 I/P 画布，U 包含 N 个视觉 token 记录，G = { G_k } 表示导出的编解码组。对于 token u，ι_u 是画布索引，f_u 是源帧 id，p_can_u 是打包的画布坐标，p_src_u 是源帧 patch 坐标，κ_u 是比特成本自适应组 id。打包坐标支持紧凑的画布构建，而源坐标保留每个 token 的空间原点，用于时空编码。连接器和语言模型并不直接消费这些编解码字段；编解码流式 token 化通过选择视觉证据和分配 token 可见性组来影响模型。

图像组（GOP）划分

编解码流式 token 化并非按经过时间分配视觉槽，而是根据压缩流的时间比特成本轮廓对视频进行划分。我们将视频分成 B 个长度为 Δ 的区间，并聚合每个区间内预测帧的包大小： e_b = ∑{q∈PPB} bytes(q) · 1{ τ(q) ∈ [bΔ, (b+1)Δ) }, θ = ∑{b=0}^{B-1} e_b max(1, K_tar). e_{

@jiqizhixin: 如果你的AI能像流媒体编解码器一样“看”视频——只把令牌花在最关键的时刻？介绍……

LLaVA-OneVision-2: 迈向新一代感知智能

摘要

1 引言

2 架构

2.1 LLaVA-OneVision-2

视觉编码器

视觉-语言连接器

大型语言模型

2.2 编解码流式 Token 化

统一的视觉 token 接口

图像组（GOP）划分

相似文章

LLaVA-OneVision-2：迈向下一代感知智能

AdaCodec：面向视频多模态大模型的预测性视觉编码

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

LiteFrame 扩展视频大语言模型效率（6分钟阅读）

Video2LoRA: 视觉-语言模型的参数化视频内化

提交意见反馈