多视角证据合成与推理的无监督多模态实体链接

arXiv cs.CL 2026/04/23 04:00 论文

摘要

MSR-MEL 提出一种无监督框架，利用大语言模型对多视角证据进行合成与推理，实现多模态实体链接，在标准基准上全面超越既有方法。

arXiv:2604.20283v1 公告类型: new 摘要：多模态实体链接（MEL）是数据管理中的基础任务，旨在将含多种模态的歧义提及映射到知识库中的多模态实体。然而，现有方法多聚焦于实例级特征与证据，对更广范围的证据及其复杂依赖关系探索不足。受人类专家多视角决策过程启发，本文提出 MSR-MEL——一种基于大语言模型（LLM）的多视角证据合成与推理框架，用于无监督 MEL。具体采用两阶段框架：（1）离线多视角证据合成：构建全面证据集，包括捕捉提及与实体实例级多模态信息的实例级证据、聚合邻域信息的组级证据、基于字符串重叠的词法证据，以及基于简单统计量的统计证据。核心贡献在于通过图结构有效聚合邻域信息以合成组级证据：先构建 LLM 增强的上下文化图，再以非对称师生图神经网络联合对齐不同模态。（2）在线多视角证据推理：利用 LLM 作为推理模块，分析多视角证据间的关联与语义，在无监督条件下归纳出有效排序策略，实现精准实体链接。在广泛使用的 MEL 基准上的大量实验表明，MSR-MEL 一致优于现有最佳无监督方法。本文源代码已公开于：https://anonymous.4open.science/r/MSR-MEL-C21E/。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:03

# 多视角证据合成与推理：面向无监督多模态实体链接  
来源：https://arxiv.org/html/2604.20283 (2027)

###### 摘要  
多模态实体链接（MEL）是数据管理中的基础任务，旨在将具有多种模态的歧义提及映射到知识库中的多模态实体。然而，现有 MEL 方法主要关注实例级特征与证据的优化，对更广泛证据形式及其复杂依赖关系探索不足。受人类专家决策过程依赖多视角判断的启发，本文提出 MSR-MEL——一种基于大语言模型（LLM）的多视角证据合成与推理框架，用于无监督 MEL。具体而言，框架分两阶段：  
(1) 离线多视角证据合成：构建全面证据集，包括实例级证据（捕获提及与实体的多模态信息）、组级证据（聚合邻域信息）、词汇证据（基于字符串重叠）与统计证据（简单汇总统计）。核心贡献在于组级证据的合成：通过 LLM 增强的上下文化图，先构建高质量语义关系图，再以非对称师生图神经网络实现跨模态对齐。  
(2) 在线多视角证据推理：利用 LLM 作为推理模块，分析多视角证据间的相关性与语义，诱导出有效的排序策略，实现无监督情况下的精准实体链接。  
在广泛使用的 MEL 基准上的大量实验表明，MSR-MEL 一致优于现有无监督方法。源码地址：https://anonymous.4open.science/r/MSR-MEL-C21E/。

多模态实体链接；多视角推理；图神经网络；大语言模型

## 1 引言  
实体链接（EL）是智能信息处理的核心任务，将歧义提及映射到知识库（KB）中的特定条目。随着网络多媒体数据的爆炸式增长，该任务扩展到多模态实体链接（MEL）。与传统 EL 仅依赖文本不同，MEL 同时利用文本上下文与视觉信息识别实体，是多模态信息检索、问答、社交媒体推荐等应用的关键上游环节。

###### 示例  
图 1 展示了一个典型 MEL 示例：提及文本为“Oxford published a new study on vaccine efficacy”，配图为一所大学校园。多个候选实体均含“Oxford”一词，部分在文本或视觉上部分相关，但只有“University of Oxford”正确对应真实世界实体，凸显孤立模态带来的歧义。

现有方法分为监督与无监督两类，代表性对比如表 1 所示。监督方法依赖大量标注的提及-实体对，将其视为分类任务；无监督方法则利用多模态模型生成表示，通过相似度排序完成链接。然而，两者主要优化实例级多模态特征，未能充分利用更广泛的证据及其复杂关系。实验表明，即使常用 MEL 基准也存在显著数据缺失，WikiMEL、RichpediaMEL、WikiDiverse 的实体图像比例分别仅 67.26%、57.41%、50.16%。人类专家决策时天然聚合多视角证据（语义相关、上下文一致、关系相容等），提示 MEL 亦可受益于显式推理的多视角证据。

挑战：  
挑战 I：如何从稀疏低质多模态数据中提取并合成稳定互补的多视角证据？  
挑战 II：如何在完全无监督场景下有效推理多视角证据？

本文提出 MSR-MEL，基于 LLM 的无监督多视角证据合成与推理框架，采用两阶段设计：  
(1) 离线阶段：多视角证据合成。构建实例级、组级、词汇、统计四类证据。核心为组级证据：先构建 LLM 增强的上下文化图，再以非对称师生图神经网络实现跨模态对齐。  
(2) 在线阶段：多视角证据推理。利用 LLM 对合成证据进行显式分析，诱导树状推理策略重排候选实体，实现可解释的无监督排序。

贡献：  
• 提出 MSR-MEL，首个将多视角证据合成与 LLM 推理结合的无监督 MEL 框架。  
• 构建涵盖四视角的完备证据集，解决稀疏低质数据下的鲁棒证据合成。  
• 设计 LLM 驱动的树状推理机制，无需标注即可实现有效实体选择。  
• 在多个基准上，MSR-MEL 相比当前最佳无监督方法 OpenMEL 平均 Hit@1 提升 13.04%，展现更强鲁棒性与效率。

## 2 预备知识  
本节形式化定义 MEL 任务。

符号：多模态语料包含提及集合 ℳ = {m_i}。每个提及 m_i 由文本描述（含提及名称与上下文）及关联图像构成，形式化为三元组 m_i = (n_i, t_i, v_i)，其中 v_i 可能为空或含噪。目标知识库包含实体集合 ℰ = {e_j}，同样表示为三元组 e_j = (n_j, t_j, v_j)，实体模态亦可能缺失或含噪，进一步增加链接歧义。

多视角证据合成与推理的无监督多模态实体链接

相似文章

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

基于LLM的多模态音乐推荐系统

检索、整合与综合：空间-语义接地潜层视觉推理

观看、记忆、推理：基于MLLMs的人类视角视频理解

通过宽基线匹配激发MLLMs中的复杂空间推理

提交意见反馈