LLaVA-OneVision-2:迈向下一代感知智能

Hugging Face Daily Papers 论文

摘要

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。

我们介绍了 LLaVA-OneVision-2 (LLaVA-OV-2),这是迄今为止 LLaVA-OneVision 系列中最强大的视觉语言模型,在广泛的多模态基准测试中取得了卓越的性能。该模型基于原生 OneVision 编码器构建,并引入了窗口注意力机制,以在保持原生分辨率的同时实现高效的局部计算。其关键进步在于编解码流分词:它将压缩视频视为连续的比特成本流,其中比特成本动态决定自适应时间分组,而运动残差线索将显著的空间证据选择到紧凑的视觉画布中。这种分配将有限的令牌预算集中在包含事件的内容上,从而比固定的图像组实现更稳定的长视频令牌压缩。共享的 3D RoPE 进一步将编解码画布、采样帧和图像置于统一的时空坐标系中。此外,我们围绕大规模开放监督构建了 LLaVA-OV-2 的数据和训练栈:大约 800 万个重新标注的视频样本用于预训练,一个 400 万样本的空间语料库用于微调。我们还引入了 JumpScore,这是一个时间定位基准,针对高频、密集重复运动中的细粒度定位,这是现有视频评估中较少涉及的场景。LLaVA-OV-2 的一个突出能力是在视频理解、时间定位、空间定位和操作轨迹推理上的统一感知。在 JumpScore 上,LLaVA-OneVision-2-8B 达到了 74.9 JumpScore mAP,超过 Qwen3-VL-8B (30.1) 44.8 个百分点;在同一基准测试中,在匹配的视觉令牌预算下,编解码流输入相比于帧采样在时间定位上提升了 9.7 个百分点。在标准基准测试中,LLaVA-OneVision-2-8B 进一步在视频任务上平均领先 Qwen3-VL-8B 4.3 个百分点,在空间任务上领先 5.3 个百分点,在跟踪任务上平均 J&F 领先 15.6 个百分点。
查看原文
查看缓存全文

缓存时间: 2026/05/27 06:48

论文页面 - LLaVA-OneVision-2:迈向下一代感知智能

来源:https://huggingface.co/papers/2605.25979 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

LLaVA-OneVision-2 通过编解码流令牌化、窗口注意力和大规模开放监督,在视频理解、时间定位和跟踪任务上实现了卓越的多模态性能。

我们推出了 LLaVA-OneVision-2(LLaVA-OV-2),这是迄今 LLaVA-OneVision 系列中最强大的视觉语言模型,在众多多模态基准测试中均取得了卓越性能。该模型基于原生 OneVision-Encoder,并引入了窗口注意力机制,在保持原生分辨率的同时实现高效的局部计算。其关键进展在于编解码流令牌化:它将压缩视频视为连续的比特成本流,其中比特成本动态决定自适应时间组,而运动残差线索则选择显著的空间证据,形成紧凑的视觉画布。这种分配方式将有限的令牌预算集中在包含事件的内容上,相比固定图像组,能实现更稳定的长视频令牌压缩。共享的 3D RoPE 进一步将编解码画布、采样帧和图像置于统一的时空坐标系中。此外,我们围绕大规模开放监督构建了 LLaVA-OV-2 的数据和训练栈:约 800 万个重新标注的视频样本用于预训练,一个 400 万样本的空间语料库用于微调。我们还引入了 JumpScore,这是一个针对高频、密集重复运动中细粒度定位的时间定位基准,填补了现有视频评估的空白。LLaVA-OV-2 的一项突出能力是其统一感知,涵盖视频理解、时间定位、空间定位和操作轨迹推理。在 JumpScore 上,LLaVA-OneVision-2-8B 达到了 74.9 mAP,超过 Qwen3-VL-8B(30.1)44.8 个百分点;在相同基准测试的匹配视觉令牌预算下,编解码流输入相比帧采样在时间定位上提升了 9.7 个百分点。在标准基准测试中,LLaVA-OneVision-2-8B 在视频任务上平均领先 Qwen3-VL-8B 4.3 个百分点,在空间任务上领先 5.3 个百分点,在跟踪任务上平均 J&F 领先 15.6 个百分点。

查看 arXiv 页面 (https://arxiv.org/abs/2605.25979)查看 PDF (https://arxiv.org/pdf/2605.25979)项目页面 (https://evolvinglmms-lab.github.io/LLaVA-OneVision-2/)GitHub943 (https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-2)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.25979)

在您的 agent 中获取这篇论文:

hf papers read 2605\.25979

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.25979 即可链接到此页面。

引用本论文的数据集0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.25979 即可链接到此页面。

引用本论文的 Spaces0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.25979 即可链接到此页面。

包含本论文的合集0

暂无合集包含此论文

将本论文添加到一个合集 (https://huggingface.co/new-collection) 即可链接到此页面。

相似文章

LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?

Hugging Face Daily Papers

本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。

AdaCodec:面向视频多模态大模型的预测性视觉编码

Hugging Face Daily Papers

AdaCodec 通过仅在场景预测失败时传输完整视觉标记,否则使用紧凑的帧间变化描述,从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下,它优于逐帧 RGB 基线,并且在使用显著更少标记的情况下取得更好或相当的结果,将首令牌延迟从 9.26 秒降至 1.62 秒。

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers

LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v