多视角证据合成与推理的无监督多模态实体链接

arXiv cs.CL 论文

摘要

MSR-MEL 提出一种无监督框架,利用大语言模型对多视角证据进行合成与推理,实现多模态实体链接,在标准基准上全面超越既有方法。

arXiv:2604.20283v1 公告类型: new 摘要:多模态实体链接(MEL)是数据管理中的基础任务,旨在将含多种模态的歧义提及映射到知识库中的多模态实体。然而,现有方法多聚焦于实例级特征与证据,对更广范围的证据及其复杂依赖关系探索不足。受人类专家多视角决策过程启发,本文提出 MSR-MEL——一种基于大语言模型(LLM)的多视角证据合成与推理框架,用于无监督 MEL。具体采用两阶段框架:(1)离线多视角证据合成:构建全面证据集,包括捕捉提及与实体实例级多模态信息的实例级证据、聚合邻域信息的组级证据、基于字符串重叠的词法证据,以及基于简单统计量的统计证据。核心贡献在于通过图结构有效聚合邻域信息以合成组级证据:先构建 LLM 增强的上下文化图,再以非对称师生图神经网络联合对齐不同模态。(2)在线多视角证据推理:利用 LLM 作为推理模块,分析多视角证据间的关联与语义,在无监督条件下归纳出有效排序策略,实现精准实体链接。在广泛使用的 MEL 基准上的大量实验表明,MSR-MEL 一致优于现有最佳无监督方法。本文源代码已公开于:https://anonymous.4open.science/r/MSR-MEL-C21E/。
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:03

# 多视角证据合成与推理:面向无监督多模态实体链接  
来源:https://arxiv.org/html/2604.20283 (2027)

###### 摘要  
多模态实体链接(MEL)是数据管理中的基础任务,旨在将具有多种模态的歧义提及映射到知识库中的多模态实体。然而,现有 MEL 方法主要关注实例级特征与证据的优化,对更广泛证据形式及其复杂依赖关系探索不足。受人类专家决策过程依赖多视角判断的启发,本文提出 MSR-MEL——一种基于大语言模型(LLM)的多视角证据合成与推理框架,用于无监督 MEL。具体而言,框架分两阶段:  
(1) 离线多视角证据合成:构建全面证据集,包括实例级证据(捕获提及与实体的多模态信息)、组级证据(聚合邻域信息)、词汇证据(基于字符串重叠)与统计证据(简单汇总统计)。核心贡献在于组级证据的合成:通过 LLM 增强的上下文化图,先构建高质量语义关系图,再以非对称师生图神经网络实现跨模态对齐。  
(2) 在线多视角证据推理:利用 LLM 作为推理模块,分析多视角证据间的相关性与语义,诱导出有效的排序策略,实现无监督情况下的精准实体链接。  
在广泛使用的 MEL 基准上的大量实验表明,MSR-MEL 一致优于现有无监督方法。源码地址:https://anonymous.4open.science/r/MSR-MEL-C21E/。

多模态实体链接;多视角推理;图神经网络;大语言模型

## 1 引言  
实体链接(EL)是智能信息处理的核心任务,将歧义提及映射到知识库(KB)中的特定条目。随着网络多媒体数据的爆炸式增长,该任务扩展到多模态实体链接(MEL)。与传统 EL 仅依赖文本不同,MEL 同时利用文本上下文与视觉信息识别实体,是多模态信息检索、问答、社交媒体推荐等应用的关键上游环节。

###### 示例  
图 1 展示了一个典型 MEL 示例:提及文本为“Oxford published a new study on vaccine efficacy”,配图为一所大学校园。多个候选实体均含“Oxford”一词,部分在文本或视觉上部分相关,但只有“University of Oxford”正确对应真实世界实体,凸显孤立模态带来的歧义。

现有方法分为监督与无监督两类,代表性对比如表 1 所示。监督方法依赖大量标注的提及-实体对,将其视为分类任务;无监督方法则利用多模态模型生成表示,通过相似度排序完成链接。然而,两者主要优化实例级多模态特征,未能充分利用更广泛的证据及其复杂关系。实验表明,即使常用 MEL 基准也存在显著数据缺失,WikiMEL、RichpediaMEL、WikiDiverse 的实体图像比例分别仅 67.26%、57.41%、50.16%。人类专家决策时天然聚合多视角证据(语义相关、上下文一致、关系相容等),提示 MEL 亦可受益于显式推理的多视角证据。

挑战:  
挑战 I:如何从稀疏低质多模态数据中提取并合成稳定互补的多视角证据?  
挑战 II:如何在完全无监督场景下有效推理多视角证据?

本文提出 MSR-MEL,基于 LLM 的无监督多视角证据合成与推理框架,采用两阶段设计:  
(1) 离线阶段:多视角证据合成。构建实例级、组级、词汇、统计四类证据。核心为组级证据:先构建 LLM 增强的上下文化图,再以非对称师生图神经网络实现跨模态对齐。  
(2) 在线阶段:多视角证据推理。利用 LLM 对合成证据进行显式分析,诱导树状推理策略重排候选实体,实现可解释的无监督排序。

贡献:  
• 提出 MSR-MEL,首个将多视角证据合成与 LLM 推理结合的无监督 MEL 框架。  
• 构建涵盖四视角的完备证据集,解决稀疏低质数据下的鲁棒证据合成。  
• 设计 LLM 驱动的树状推理机制,无需标注即可实现有效实体选择。  
• 在多个基准上,MSR-MEL 相比当前最佳无监督方法 OpenMEL 平均 Hit@1 提升 13.04%,展现更强鲁棒性与效率。

## 2 预备知识  
本节形式化定义 MEL 任务。

符号:多模态语料包含提及集合 ℳ = {m_i}。每个提及 m_i 由文本描述(含提及名称与上下文)及关联图像构成,形式化为三元组 m_i = (n_i, t_i, v_i),其中 v_i 可能为空或含噪。目标知识库包含实体集合 ℰ = {e_j},同样表示为三元组 e_j = (n_j, t_j, v_j),实体模态亦可能缺失或含噪,进一步增加链接歧义。

相似文章

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL

MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。

基于LLM的多模态音乐推荐系统

Hugging Face Daily Papers

提出了一种多模态框架,融合音频、歌词和语义信号,并利用基于LLM的序列推理进行会话式音乐推荐,相较于仅使用ID的基线方法,召回率提升高达95%。

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

通过宽基线匹配激发MLLMs中的复杂空间推理

Hugging Face Daily Papers

本文介绍了ReasonMatch-Bench,一个用于多模态大语言模型中宽基线匹配的基准,并提出了动态对应强化学习(DCRL)以提升空间推理能力。实验表明,该方法在基准测试上取得了显著提升,同时保持了通用性能。