Unveil: 多模态文档检索的统一视觉-文本融合与蒸馏

arXiv cs.CL 论文

摘要

Unveil提出了一个用于多模态文档检索的统一视觉-文本嵌入框架,通过知识蒸馏将语义理解从视觉-文本模型转移到纯视觉模型,实现鲁棒且高效的检索。

arXiv:2605.24530v1 公告类型:新 摘要:现实场景中的文档检索由于文档格式和模态的多样性面临重大挑战。传统的基于文本的方法依赖定制的解析技术,忽视布局信息且容易出错,而最近的无解析视觉方法在文本丰富的场景中往往难以捕捉细粒度的文本语义。为解决这些限制,我们提出了\textbf{Unveil},一种新颖的视觉-文本嵌入框架,有效整合文本和视觉特征以实现鲁棒的文档表示。通过知识蒸馏,我们将语义理解能力从视觉-文本嵌入模型转移到纯视觉模型,在保留语义保真度的同时实现高效的无解析检索。实验结果表明,我们的视觉-文本嵌入方法超越了现有方法,而知识蒸馏成功弥合了视觉-文本方法与纯视觉方法之间的性能差距,提高了检索准确性和效率。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:03

# Unveil: 面向多模态文档检索的统一视觉-文本融合与蒸馏

来源:https://arxiv.org/abs/2605.24530  
查看PDF (https://arxiv.org/pdf/2605.24530)

> 摘要:实际场景中的文档检索因文档格式与模态的多样性而面临巨大挑战。传统基于文本的方法依赖定制的解析技术,忽视布局信息且易出错;而近期免解析的视觉方法在密集文本场景中往往难以捕捉细粒度文本语义。为克服这些局限,我们提出 **Unveil**——一种新型视觉-文本嵌入框架,有效融合文本与视觉特征,实现稳健的文档表示。通过知识蒸馏,我们将视觉-文本嵌入模型的语义理解能力迁移至纯视觉模型,在保持语义保真度的同时实现高效的免解析检索。实验结果表明,我们的视觉-文本嵌入方法超越了现有方案,而知识蒸馏成功弥合了视觉-文本与纯视觉方法之间的性能差距,同时提升了检索精度与效率。

## 提交历史

来自:孙浩 [查看邮箱](https://arxiv.org/show-email/6d19fec6/2605.24530)  
**[v1]** 2026年5月23日 星期六 11:48:28 UTC (8,190 KB)

相似文章

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。