LLaVA-OneVision-2：迈向下一代感知智能

Hugging Face Daily Papers 2026/05/25 00:00 论文

vision-language multimodal tokenization temporal-grounding video-understanding codec-stream open-supervision

摘要

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解，在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。

我们介绍了 LLaVA-OneVision-2 (LLaVA-OV-2)，这是迄今为止 LLaVA-OneVision 系列中最强大的视觉语言模型，在广泛的多模态基准测试中取得了卓越的性能。该模型基于原生 OneVision 编码器构建，并引入了窗口注意力机制，以在保持原生分辨率的同时实现高效的局部计算。其关键进步在于编解码流分词：它将压缩视频视为连续的比特成本流，其中比特成本动态决定自适应时间分组，而运动残差线索将显著的空间证据选择到紧凑的视觉画布中。这种分配将有限的令牌预算集中在包含事件的内容上，从而比固定的图像组实现更稳定的长视频令牌压缩。共享的 3D RoPE 进一步将编解码画布、采样帧和图像置于统一的时空坐标系中。此外，我们围绕大规模开放监督构建了 LLaVA-OV-2 的数据和训练栈：大约 800 万个重新标注的视频样本用于预训练，一个 400 万样本的空间语料库用于微调。我们还引入了 JumpScore，这是一个时间定位基准，针对高频、密集重复运动中的细粒度定位，这是现有视频评估中较少涉及的场景。LLaVA-OV-2 的一个突出能力是在视频理解、时间定位、空间定位和操作轨迹推理上的统一感知。在 JumpScore 上，LLaVA-OneVision-2-8B 达到了 74.9 JumpScore mAP，超过 Qwen3-VL-8B (30.1) 44.8 个百分点；在同一基准测试中，在匹配的视觉令牌预算下，编解码流输入相比于帧采样在时间定位上提升了 9.7 个百分点。在标准基准测试中，LLaVA-OneVision-2-8B 进一步在视频任务上平均领先 Qwen3-VL-8B 4.3 个百分点，在空间任务上领先 5.3 个百分点，在跟踪任务上平均 J&F 领先 15.6 个百分点。

查看原文

查看缓存全文

缓存时间: 2026/05/27 06:48

论文页面 - LLaVA-OneVision-2：迈向下一代感知智能

来源：https://huggingface.co/papers/2605.25979 作者：

摘要

LLaVA-OneVision-2 通过编解码流令牌化、窗口注意力和大规模开放监督，在视频理解、时间定位和跟踪任务上实现了卓越的多模态性能。

我们推出了 LLaVA-OneVision-2（LLaVA-OV-2），这是迄今 LLaVA-OneVision 系列中最强大的视觉语言模型，在众多多模态基准测试中均取得了卓越性能。该模型基于原生 OneVision-Encoder，并引入了窗口注意力机制，在保持原生分辨率的同时实现高效的局部计算。其关键进展在于编解码流令牌化：它将压缩视频视为连续的比特成本流，其中比特成本动态决定自适应时间组，而运动残差线索则选择显著的空间证据，形成紧凑的视觉画布。这种分配方式将有限的令牌预算集中在包含事件的内容上，相比固定图像组，能实现更稳定的长视频令牌压缩。共享的 3D RoPE 进一步将编解码画布、采样帧和图像置于统一的时空坐标系中。此外，我们围绕大规模开放监督构建了 LLaVA-OV-2 的数据和训练栈：约 800 万个重新标注的视频样本用于预训练，一个 400 万样本的空间语料库用于微调。我们还引入了 JumpScore，这是一个针对高频、密集重复运动中细粒度定位的时间定位基准，填补了现有视频评估的空白。LLaVA-OV-2 的一项突出能力是其统一感知，涵盖视频理解、时间定位、空间定位和操作轨迹推理。在 JumpScore 上，LLaVA-OneVision-2-8B 达到了 74.9 mAP，超过 Qwen3-VL-8B（30.1）44.8 个百分点；在相同基准测试的匹配视觉令牌预算下，编解码流输入相比帧采样在时间定位上提升了 9.7 个百分点。在标准基准测试中，LLaVA-OneVision-2-8B 在视频任务上平均领先 Qwen3-VL-8B 4.3 个百分点，在空间任务上领先 5.3 个百分点，在跟踪任务上平均 J&F 领先 15.6 个百分点。

查看 arXiv 页面 (https://arxiv.org/abs/2605.25979)查看 PDF (https://arxiv.org/pdf/2605.25979)项目页面 (https://evolvinglmms-lab.github.io/LLaVA-OneVision-2/)GitHub943 (https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-2)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.25979)

在您的 agent 中获取这篇论文：

hf papers read 2605\.25979

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.25979 即可链接到此页面。

引用本论文的数据集0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.25979 即可链接到此页面。

引用本论文的 Spaces0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.25979 即可链接到此页面。

包含本论文的合集0

暂无合集包含此论文

将本论文添加到一个合集 (https://huggingface.co/new-collection) 即可链接到此页面。

相似文章

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

Hugging Face Daily Papers

本文介绍了 LLaVA-UHD v4，该模型通过采用基于切片（slice-based）的编码和 ViT 内部早期压缩，提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时，将计算成本降低了 55% 以上。

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers

本文介绍Video2LoRA，一种直接从视频表示预测低秩适配（LoRA）权重的方法，能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍，查询TTFT降低6-80倍，同时在视频摘要和字幕生成基准上保持性能。

AdaCodec：面向视频多模态大模型的预测性视觉编码

Hugging Face Daily Papers

AdaCodec 通过仅在场景预测失败时传输完整视觉标记，否则使用紧凑的帧间变化描述，从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下，它优于逐帧 RGB 基线，并且在使用显著更少标记的情况下取得更好或相当的结果，将首令牌延迟从 9.26 秒降至 1.62 秒。

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers

LiteFrame提出了一种轻量级视频编码器，采用压缩令牌蒸馏（Compressed Token Distillation）训练，可降低延迟，并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解，在降低计算量的同时提高准确性。

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

论文页面 - LLaVA-OneVision-2：迈向下一代感知智能

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的合集0

相似文章

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

Video2LoRA: 视觉-语言模型的参数化视频内化

AdaCodec：面向视频多模态大模型的预测性视觉编码

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

OneVL：基于视觉语言解释的单步隐式推理与规划

提交意见反馈