LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?
摘要
本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。
查看缓存全文
缓存时间: 2026/05/12 07:27
论文页面 - LLaVA-UHD v4:是什么造就了多模态大语言模型中的高效视觉编码?
来源:https://huggingface.co/papers/2605.08985
摘要
通过在多模态大语言模型中采用基于切片(slice-based)的编码和 ViT 内部早期压缩,实现了针对高分辨率输入的高效视觉编码,在保持性能的同时降低了计算成本。
视觉编码(https://huggingface.co/papers?q=Visual%20encoding)是多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)中的一个主要计算瓶颈,特别是对于高分辨率图像输入而言。当前的主流做法通常采用全局编码(https://huggingface.co/papers?q=global%20encoding),随后进行 ViT 后压缩(https://huggingface.co/papers?q=post-ViT%20compression)。全局编码(https://huggingface.co/papers?q=Global%20encoding)会产生巨大的 token 序列,而 ViT 后压缩(https://huggingface.co/papers?q=post-ViT%20compression)则会在任何 token 削减(https://huggingface.co/papers?q=token%20reduction)发生之前,产生 ViT 完整的二次方注意力成本。在本工作中,我们从两个维度重新审视了这一惯例:编码策略和视觉 token 压缩。首先,受控实验表明,基于切片的编码(https://huggingface.co/papers?q=slice-based%20encoding)在各类基准测试中均优于全局编码(https://huggingface.co/papers?q=global%20encoding),这表明通过切片视图保留局部细节,比应用全局注意力进行细粒度感知更为有益。其次,我们引入了 ViT 内部早期压缩,该技术在浅层 ViT 层中减少 token 数量,在保持下游性能的同时大幅降低了视觉编码 FLOPs(https://huggingface.co/papers?q=visual-encoding%20FLOPs)。通过将 ViT 内部压缩(https://huggingface.co/papers?q=intra-ViT%20compression)集成到基于切片的编码(https://huggingface.co/papers?q=slice-based%20encoding)框架中,我们提出了 LLaVA-UHD v4,这是一种专为高分辨率输入(https://huggingface.co/papers?q=high-resolution%20inputs)设计的高效且计算可控的视觉编码(https://huggingface.co/papers?q=visual%20encoding)方案。在涵盖文档理解、OCR 和通用 VQA 的多样化基准测试中,LLaVA-UHD v4 将视觉编码 FLOPs(https://huggingface.co/papers?q=visual-encoding%20FLOPs)降低了 55.8%,同时达到甚至超过了基线性能。这些结果表明,可以在不牺牲下游性能的情况下显著提高视觉编码效率,为高效高分辨率 MLLMs 提供了实用的设计方向。所有模型权重和代码将公开发布,以支持进一步的研究。
查看 arXiv 页面(https://arxiv.org/abs/2605.08985)查看 PDF(https://arxiv.org/pdf/2605.08985)项目页面(https://github.com/THUMAI-Lab/LLaVA-UHD-v4)GitHub4(https://github.com/THUMAI-Lab/LLaVA-UHD-v4)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.08985)
在您的 Agent 中获取此论文:
hf papers read 2605\.08985
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 1
openbmb/MiniCPM-V-4.6 Image-Text-to-Text• 1B• 更新于约 1 小时前 • 308(https://huggingface.co/openbmb/MiniCPM-V-4.6)
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.08985 即可从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.08985 即可从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
LLaVA-OneVision-2:迈向下一代感知智能
LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。
从感知到决策:多模态大语言模型中听觉与视觉感知的信息流
本文研究了音频与视觉信息在音频-视觉大语言模型(AVLLMs)中的流动方式,揭示了AVLLMs根据输入配置采取顺序或并行路由,并且某些token在信息传输后可被丢弃以提高效率。
大型语言模型教导视觉学生:细粒度概念知识的跨模态迁移
本文介绍了LaViD框架,该框架通过生成多项选择题作为概念签名,将语义知识从纯语言大语言模型转移到视觉学生模型,实现了优越的细粒度分类性能和鲁棒性。
AdaCodec:面向视频多模态大模型的预测性视觉编码
AdaCodec 通过仅在场景预测失败时传输完整视觉标记,否则使用紧凑的帧间变化描述,从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下,它优于逐帧 RGB 基线,并且在使用显著更少标记的情况下取得更好或相当的结果,将首令牌延迟从 9.26 秒降至 1.62 秒。
Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由
本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。