Unveil: 多模态文档检索的统一视觉-文本融合与蒸馏

arXiv cs.CL 2026/05/26 04:00 论文

multi-modal document-retrieval knowledge-distillation visual-textual embedding parsing-free

摘要

Unveil提出了一个用于多模态文档检索的统一视觉-文本嵌入框架，通过知识蒸馏将语义理解从视觉-文本模型转移到纯视觉模型，实现鲁棒且高效的检索。

arXiv:2605.24530v1 公告类型：新摘要：现实场景中的文档检索由于文档格式和模态的多样性面临重大挑战。传统的基于文本的方法依赖定制的解析技术，忽视布局信息且容易出错，而最近的无解析视觉方法在文本丰富的场景中往往难以捕捉细粒度的文本语义。为解决这些限制，我们提出了\textbf{Unveil}，一种新颖的视觉-文本嵌入框架，有效整合文本和视觉特征以实现鲁棒的文档表示。通过知识蒸馏，我们将语义理解能力从视觉-文本嵌入模型转移到纯视觉模型，在保留语义保真度的同时实现高效的无解析检索。实验结果表明，我们的视觉-文本嵌入方法超越了现有方法，而知识蒸馏成功弥合了视觉-文本方法与纯视觉方法之间的性能差距，提高了检索准确性和效率。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:03

# Unveil: 面向多模态文档检索的统一视觉-文本融合与蒸馏

来源：https://arxiv.org/abs/2605.24530  
查看PDF (https://arxiv.org/pdf/2605.24530)

> 摘要：实际场景中的文档检索因文档格式与模态的多样性而面临巨大挑战。传统基于文本的方法依赖定制的解析技术，忽视布局信息且易出错；而近期免解析的视觉方法在密集文本场景中往往难以捕捉细粒度文本语义。为克服这些局限，我们提出 **Unveil**——一种新型视觉-文本嵌入框架，有效融合文本与视觉特征，实现稳健的文档表示。通过知识蒸馏，我们将视觉-文本嵌入模型的语义理解能力迁移至纯视觉模型，在保持语义保真度的同时实现高效的免解析检索。实验结果表明，我们的视觉-文本嵌入方法超越了现有方案，而知识蒸馏成功弥合了视觉-文本与纯视觉方法之间的性能差距，同时提升了检索精度与效率。

## 提交历史

来自：孙浩 [查看邮箱](https://arxiv.org/show-email/6d19fec6/2605.24530)  
**[v1]** 2026年5月23日 星期六 11:48:28 UTC (8,190 KB)

Unveil: 多模态文档检索的统一视觉-文本融合与蒸馏

相似文章

在统一的多模态理解与生成中唤醒空间智能

统一多模态自回归建模：共享上下文-视觉分词器是实现统一的关键

UniVidX：基于扩散先验的多功能视频生成统一多模态框架

通过理解监督引导统一多模态模型中的视觉生成

MulTaBench：基于文本与图像的多模态表格学习基准测试

提交意见反馈