Unveil: 多模态文档检索的统一视觉-文本融合与蒸馏
摘要
Unveil提出了一个用于多模态文档检索的统一视觉-文本嵌入框架,通过知识蒸馏将语义理解从视觉-文本模型转移到纯视觉模型,实现鲁棒且高效的检索。
arXiv:2605.24530v1 公告类型:新
摘要:现实场景中的文档检索由于文档格式和模态的多样性面临重大挑战。传统的基于文本的方法依赖定制的解析技术,忽视布局信息且容易出错,而最近的无解析视觉方法在文本丰富的场景中往往难以捕捉细粒度的文本语义。为解决这些限制,我们提出了\textbf{Unveil},一种新颖的视觉-文本嵌入框架,有效整合文本和视觉特征以实现鲁棒的文档表示。通过知识蒸馏,我们将语义理解能力从视觉-文本嵌入模型转移到纯视觉模型,在保留语义保真度的同时实现高效的无解析检索。实验结果表明,我们的视觉-文本嵌入方法超越了现有方法,而知识蒸馏成功弥合了视觉-文本方法与纯视觉方法之间的性能差距,提高了检索准确性和效率。
查看缓存全文
缓存时间: 2026/05/26 09:03
# Unveil: 面向多模态文档检索的统一视觉-文本融合与蒸馏 来源:https://arxiv.org/abs/2605.24530 查看PDF (https://arxiv.org/pdf/2605.24530) > 摘要:实际场景中的文档检索因文档格式与模态的多样性而面临巨大挑战。传统基于文本的方法依赖定制的解析技术,忽视布局信息且易出错;而近期免解析的视觉方法在密集文本场景中往往难以捕捉细粒度文本语义。为克服这些局限,我们提出 **Unveil**——一种新型视觉-文本嵌入框架,有效融合文本与视觉特征,实现稳健的文档表示。通过知识蒸馏,我们将视觉-文本嵌入模型的语义理解能力迁移至纯视觉模型,在保持语义保真度的同时实现高效的免解析检索。实验结果表明,我们的视觉-文本嵌入方法超越了现有方案,而知识蒸馏成功弥合了视觉-文本与纯视觉方法之间的性能差距,同时提升了检索精度与效率。 ## 提交历史 来自:孙浩 [查看邮箱](https://arxiv.org/show-email/6d19fec6/2605.24530) **[v1]** 2026年5月23日 星期六 11:48:28 UTC (8,190 KB)
相似文章
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
统一多模态自回归建模:共享上下文-视觉分词器是实现统一的关键
UniAR提出了一个统一的自回归框架,使用单个离散视觉分词器桥接视觉理解与生成,在图像生成和编辑方面取得了最佳成果。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
通过理解监督引导统一多模态模型中的视觉生成
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
MulTaBench:基于文本与图像的多模态表格学习基准测试
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。