LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?

Hugging Face Daily Papers 论文

摘要

本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。

视觉编码是多模态大语言模型(MLLMs)中的主要计算瓶颈,尤其是在处理高分辨率图像输入时。目前的普遍做法通常采用全局编码,随后进行 ViT 后压缩。全局编码会产生海量的 token 序列,而 ViT 后压缩则在减少任何 token 之前就产生了 ViT 的全二次方注意力计算成本。在本工作中,我们从编码策略和视觉 token 压缩两个维度重新审视了这一惯例。首先,受控实验表明,基于切片的编码在各类基准测试中优于全局编码,这表明通过切片视图保留局部细节,对于细粒度感知而言,比应用全局注意力更有利。其次,我们引入了 ViT 内部早期压缩,该方法减少了浅层 ViT 中的 token 数量,在保持下游任务性能的同时,大幅降低了视觉编码的浮点运算次数(FLOPs)。通过将 ViT 内部压缩整合到基于切片的编码框架中,我们提出了 LLaVA-UHD v4,这是一种专为高分辨率输入设计的、高效且计算可控的视觉编码方案。在涵盖文档理解、OCR 和通用视觉问答(VQA)的多样化基准测试中,LLaVA-UHD v4 将视觉编码 FLOPs 降低了 55.8%,同时性能持平甚至超越了基线模型。这些结果表明,在不牺牲下游任务性能的情况下,可以大幅提升视觉编码效率,为高效高分辨率 MLLM 的设计提供了实用的方向。所有模型权重和代码将公开发布,以支持进一步的研究。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:27

论文页面 - LLaVA-UHD v4:是什么造就了多模态大语言模型中的高效视觉编码?

来源:https://huggingface.co/papers/2605.08985

摘要

通过在多模态大语言模型中采用基于切片(slice-based)的编码和 ViT 内部早期压缩,实现了针对高分辨率输入的高效视觉编码,在保持性能的同时降低了计算成本。

视觉编码(https://huggingface.co/papers?q=Visual%20encoding)是多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)中的一个主要计算瓶颈,特别是对于高分辨率图像输入而言。当前的主流做法通常采用全局编码(https://huggingface.co/papers?q=global%20encoding),随后进行 ViT 后压缩(https://huggingface.co/papers?q=post-ViT%20compression)。全局编码(https://huggingface.co/papers?q=Global%20encoding)会产生巨大的 token 序列,而 ViT 后压缩(https://huggingface.co/papers?q=post-ViT%20compression)则会在任何 token 削减(https://huggingface.co/papers?q=token%20reduction)发生之前,产生 ViT 完整的二次方注意力成本。在本工作中,我们从两个维度重新审视了这一惯例:编码策略和视觉 token 压缩。首先,受控实验表明,基于切片的编码(https://huggingface.co/papers?q=slice-based%20encoding)在各类基准测试中均优于全局编码(https://huggingface.co/papers?q=global%20encoding),这表明通过切片视图保留局部细节,比应用全局注意力进行细粒度感知更为有益。其次,我们引入了 ViT 内部早期压缩,该技术在浅层 ViT 层中减少 token 数量,在保持下游性能的同时大幅降低了视觉编码 FLOPs(https://huggingface.co/papers?q=visual-encoding%20FLOPs)。通过将 ViT 内部压缩(https://huggingface.co/papers?q=intra-ViT%20compression)集成到基于切片的编码(https://huggingface.co/papers?q=slice-based%20encoding)框架中,我们提出了 LLaVA-UHD v4,这是一种专为高分辨率输入(https://huggingface.co/papers?q=high-resolution%20inputs)设计的高效且计算可控的视觉编码(https://huggingface.co/papers?q=visual%20encoding)方案。在涵盖文档理解、OCR 和通用 VQA 的多样化基准测试中,LLaVA-UHD v4 将视觉编码 FLOPs(https://huggingface.co/papers?q=visual-encoding%20FLOPs)降低了 55.8%,同时达到甚至超过了基线性能。这些结果表明,可以在不牺牲下游性能的情况下显著提高视觉编码效率,为高效高分辨率 MLLMs 提供了实用的设计方向。所有模型权重和代码将公开发布,以支持进一步的研究。

查看 arXiv 页面(https://arxiv.org/abs/2605.08985)查看 PDF(https://arxiv.org/pdf/2605.08985)项目页面(https://github.com/THUMAI-Lab/LLaVA-UHD-v4)GitHub4(https://github.com/THUMAI-Lab/LLaVA-UHD-v4)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.08985)

在您的 Agent 中获取此论文:

hf papers read 2605\.08985

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 1

openbmb/MiniCPM-V-4.6 Image-Text-to-Text• 1B• 更新于约 1 小时前 • 308(https://huggingface.co/openbmb/MiniCPM-V-4.6)

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.08985 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.08985 即可从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

LLaVA-OneVision-2:迈向下一代感知智能

Hugging Face Daily Papers

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。

AdaCodec:面向视频多模态大模型的预测性视觉编码

Hugging Face Daily Papers

AdaCodec 通过仅在场景预测失败时传输完整视觉标记,否则使用紧凑的帧间变化描述,从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下,它优于逐帧 RGB 基线,并且在使用显著更少标记的情况下取得更好或相当的结果,将首令牌延迟从 9.26 秒降至 1.62 秒。