多模态事件抽取中的评估陷阱与挑战

arXiv cs.CL 2026/06/26 04:00 论文

摘要

本文对多模态事件抽取中的评估陷阱进行了系统分析，识别出数据预处理不一致、任务假设不一致以及评估设置过于宽松等问题，这些问题可能导致性能被高估。

arXiv:2606.26775v1 Announce Type: new Abstract: 多模态事件抽取旨在联合识别跨多种模态（如文本和图像）的事件及其论元，以支持更全面的事件理解。尽管近期工作报告了稳步且显著的进展，但这些结果的可靠性和可比性关键在于一致且严格的评估。本文首次对多模态事件抽取中的评估陷阱进行系统分析，识别出三大问题来源：数据预处理不一致、任务假设不一致以及评估设置过于宽松。通过在一套严格评估框架下进行一系列控制实验，我们证明微小的评估选择可能导致巨大的性能波动，并使模型跨模态理解真实世界事件的能力被高估。我们的发现凸显了建立可比性评估标准的必要性，并呼吁在多模态事件抽取中转向更严格的评估。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:19

# 多媒体事件提取中的评估陷阱与挑战
来源：https://arxiv.org/html/2606.26775
Philipp Seeberger, Steffen Freisinger, Tobias Bocklet, Korbinian Riedhammer 纽伦堡应用技术大学 乔治·西蒙·欧姆 \{philipp\.seeberger, steffen\.freisinger, tobias\.bocklet, korbinian\.riedhammer\}@th\-nuernberg\.de

###### 摘要

多媒体事件提取旨在联合识别跨多种模态（如文本和图像）的事件及其论元，以支持更全面的事件理解。尽管近期研究报道了稳定且显著的进展，但这些结果的可靠性和可比性关键取决于一致且严格的评估。在这项工作中，我们首次系统分析了多媒体事件提取中的评估陷阱，并识别出三个主要问题来源：不一致的数据处理、不一致的任务假设以及过于宽松的评估设置。通过一系列在严格评估框架下的控制实验，我们证明，微小的评估选择可能导致巨大的性能差异，并高估模型跨模态定位现实世界事件的能力。我们的发现强调了可比评估标准的必要性，并鼓励多媒体事件提取研究向更严格的评估实践转变。111https://github.com/seebergerph/StrictEval

# 多媒体事件提取中的评估陷阱与挑战

Philipp Seeberger, Steffen Freisinger, Tobias Bocklet, Korbinian Riedhammer
纽伦堡应用技术大学 乔治·西蒙·欧姆
\{philipp\.seeberger, steffen\.freisinger, tobias\.bocklet, korbinian\.riedhammer\}@th\-nuernberg\.de

## 1 引言

事件提取是自然语言处理和信息抽取中的一项基本任务，旨在从文档中识别、结构化并组织与事件相关的知识 Ahn (2006 (https://arxiv.org/html/2606.26775#bib.bib19))。虽然现有的事件提取研究主要聚焦于文本 Peng et al. (2023a (https://arxiv.org/html/2606.26775#bib.bib32)); Huang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib20))，但近期工作越来越多地探索整合其他模态 Sun et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib5)); Zhang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib18))。这一转变源于当代新闻媒体和在线平台中多模态内容的日益普及 Li et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib1))，其中图像、视频和音频提供了互补信息，有助于更准确、更全面地理解事件。

先前的研究已在单一模态内探讨了事件提取或密切相关的任务 Yatskar et al. (2016 (https://arxiv.org/html/2606.26775#bib.bib21)); Wadden et al. (2019 (https://arxiv.org/html/2606.26775#bib.bib25)); Sadhu et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib26)); Wang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib27))，包括文本、图像、视频和音频，或利用跨模态线索来解决特定挑战，如歧义消除 Zhang et al. (2017 (https://arxiv.org/html/2606.26775#bib.bib24)); Tong et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib23))。然而，评估大多仍局限于单一目标模态。多媒体事件提取近期引起了关注，它采用整体视角，联合提取和评估跨模态的事件（通常结合文本和视觉输入） Li et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib1)); Chen et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib28)); Sanders et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib29))。尽管取得了进展，现有的多媒体事件提取基准仍然有限，评估也充满挑战，最显著的原因包括标注稀缺、缺乏训练拆分以及多模态设置固有的评估复杂性 Li et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib1)); Sanders et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib29))。

先前的研究表明，即使是传统的文本事件提取也存在大量且常被忽视的评估挑战 Zheng et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib31)); Peng et al. (2023b (https://arxiv.org/html/2606.26775#bib.bib30)); Huang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib20))，容易隐藏陷阱。这些包括数据和任务假设的差异，以及度量设计的选择，这些会扭曲模型比较，无法反映真实性能 Huang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib20))。关键的是，将文本事件提取扩展到多模态设置不仅继承了现有的评估问题，还引入了额外的陷阱。这些陷阱源于数据稀缺、异构模态以及多媒体事件提取中常用的多阶段流水线等因素 Li et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib1)); Liu et al. (2022 (https://arxiv.org/html/2606.26775#bib.bib2)); Du et al. (2023 (https://arxiv.org/html/2606.26775#bib.bib4)); Cao et al. (2025 (https://arxiv.org/html/2606.26775#bib.bib8))。因此，不一致且不明确的评估设置很容易出现，对可靠评估多媒体事件提取研究的进展构成了潜在障碍。

受当前评估可靠性和可比性问题的驱动，本工作系统研究了多媒体事件提取评估中的隐藏陷阱和挑战，旨在提高认识并鼓励向更严格的评估实践转变。通过对广泛使用的 M2E2 基准进行深入分析，我们首先识别出三大类包含多个问题的类别：不一致的数据处理、不一致的任务假设以及宽松的评估设置。基于此分析，我们引入了一个更严格的评估框架 StrictEval，并用它来检查隐藏陷阱如何影响报告的性能。最后，我们表明，微小的实验设计选择会显著影响评估结果。

总之，我们的贡献有两个：(1) 我们系统分析了多媒体事件提取中的评估陷阱和挑战，并提出了一个更严格的评估框架 (StrictEval)。(2) 我们系统地量化了隐藏的评估陷阱如何影响报告的性能，并重新评估了近期多媒体事件提取方法，以突出其局限性。

## 2 背景与相关工作

### 2.1 背景

文本事件提取通常被表述为一个两阶段流水线 Ahn (2006 (https://arxiv.org/html/2606.26775#bib.bib19))，包括事件检测和事件论元提取。事件检测旨在识别事件提及（通常基于触发词跨度），并将其分类为预定义的事件类型。事件论元提取则侧重于识别论元跨度，并根据检测到的事件提及为其分配语义角色。类似地，视觉事件提取将任务分解为检测基于图像的事件，并将其相关语义角色链接到视觉区域（如对象）Pratt et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib22))。基于这两个研究方向，多媒体事件提取整合了文本和视觉信息，以跨模态联合提取事件及其论元 Li et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib1)); Chen et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib28))。这种多模态整合引入了额外的子任务——跨模态事件共指消解，旨在将来自不同模态且指代同一现实世界事件的事件提及统一到一个连贯的多媒体事件表示中（见图1 (https://arxiv.org/html/2606.26775#S2.F1)）。

### 2.2 相关工作

#### 多媒体事件提取基准

虽然大多数事件提取基准主要关注文本 Walker, Christopher et al. (2006 (https://arxiv.org/html/2606.26775#bib.bib34)); Song et al. (2015 (https://arxiv.org/html/2606.26775#bib.bib35)); Wang et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib36)); Huang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib20))，早期的多模态扩展通过图像增强文本数据集，但评估仍局限于文本事件 Zhang et al. (2017 (https://arxiv.org/html/2606.26775#bib.bib24)); Tong et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib23))。为了克服单模态的局限性，Li et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib1)) 引入了第一个多媒体事件提取基准 M2E2，该基准评估文本和图像的事件与论元提取。此外，M2E2 还包含跨模态事件共指，类似于文本中的跨文档共指 Nath et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib37))。后续工作扩展到图像和视频，例如 VM2E2 Chen et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib28))、CMMEvent Liu et al. (2025b (https://arxiv.org/html/2606.26775#bib.bib14))、TVEE Wang et al. (2023 (https://arxiv.org/html/2606.26775#bib.bib33)) 和 MultiVENT-G Sanders et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib29))。最近，Zhang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib18)) 通过整合 M2E2 和 ACE 等数据集与录音语音，提出了一个涵盖文本、视觉和音频输入的全面基准。然而，只有 M2E2 和 MultiVENT-G 公开发布了完整数据，而其他基准仍是闭源的 Wang et al. (2023 (https://arxiv.org/html/2606.26775#bib.bib33)); Liu et al. (2025b (https://arxiv.org/html/2606.26775#bib.bib14)) 或缺乏关键标注 Chen et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib28)); Zhang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib18))。此外，复杂的标注格式、训练拆分的缺乏以及缺失的评估脚本进一步阻碍了可靠的基准测试。

参见图注 图 1: M2E2 多媒体事件提取流水线概览。示例展示了一个在文本和图像中均指代的 Transport 事件。P 标记表示陷阱发生的阶段。TED、TEAE、VED、VEAE、MED 和 MEAE 分别表示文本、视觉和多模态事件检测与论元提取子任务。

#### 多媒体事件提取

早期方法侧重于跨模态相关性，并利用大规模未标注新闻语料库（如 VOA）对齐视觉和文本表示 Chen et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib28)); Liu et al. (2022 (https://arxiv.org/html/2606.26775#bib.bib2), 2024 (https://arxiv.org/html/2606.26775#bib.bib6))，通常结合对比学习目标 Li et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib1), 2022 (https://arxiv.org/html/2606.26775#bib.bib3), 2023 (https://arxiv.org/html/2606.26775#bib.bib39))。后续研究探索了互补方向，包括使用合成生成的图像-文本对增强训练数据 Du et al. (2023 (https://arxiv.org/html/2606.26775#bib.bib4))、设计复杂的多粒度融合机制 Wang et al. (2025 (https://arxiv.org/html/2606.26775#bib.bib9)); Liu et al. (2025a (https://arxiv.org/html/2606.26775#bib.bib15))，或利用伪标签策略的多任务学习 Cao et al. (2025 (https://arxiv.org/html/2606.26775#bib.bib8))。其他工作将焦点缩小到特定子任务，如事件检测 Sun et al. (2023 (https://arxiv.org/html/2606.26775#bib.bib38)) 或事件论元提取 Seeberger et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib7))。随着多模态大语言模型的近期进展，提出了几种指令遵循方法以实现更通用的信息提取 Sun et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib5)); Zhang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib18)); Yuan et al. (2025 (https://arxiv.org/html/2606.26775#bib.bib12)); Chen et al. (2025 (https://arxiv.org/html/2606.26775#bib.bib11)); Yu et al. (2025 (https://arxiv.org/html/2606.26775#bib.bib10))。然而，这些方法大多主要处理给定的图像-文本对，并未明确解决更广泛的多媒体事件提取设置，如跨模态事件共指消解 Sun et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib5)); Yuan et al. (2025 (https://arxiv.org/html/2606.26775#bib.bib12)); Chen et al. (2025 (https://arxiv.org/html/2606.26775#bib.bib11))。值得注意的是，现有的大多数方法都在 M2E2 基准上进行评估，这凸显了其在推动多媒体事件提取研究中的作用。尽管取得了实质性进展，先前的方法采用不同的任务公式和评估协议，这妨碍了不同建模方法之间的公平比较。

#### 评估陷阱

近期研究强调了文本事件提取模型评估中的许多问题，包括不一致的数据假设、处理步骤、输出空间差异以及宽松的评估指标 Zheng et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib31)); Peng et al. (2023b (https://arxiv.org/html/2606.26775#bib.bib30), a (https://arxiv.org/html/2606.26775#bib.bib32)); Huang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib20))。虽然这些工作清楚地指出了文本事件提取基准测试中的显著差异，但视觉和多媒体事件提取评估中的问题仍相对未被充分探索。

## 3 评估中的陷阱与挑战

出于对多媒体事件提取评估问题的关注，我们首先介绍我们的调查设置 (§3.1 (https://arxiv.org/html/2606.26775#S3.SS1)) 和系统性分析以识别评估问题 (§3.2 (https://arxiv.org/html/2606.26775#S3.SS2))。然后，我们对三个主要类别的常见陷阱进行详细分析：数据处理 (§3.3 (https://arxiv.org/html/2606.26775#S3.SS3))、任务假设 (§3.4 (https://arxiv.org/html/2606.26775#S3.SS4)) 和宽松的评估设置 (§3.5 (https://arxiv.org/html/2606.26775#S3.SS5))。最后，基于此分析的见解，我们引入 StrictEval 作为严格的评估框架以解决隐藏陷阱 (§3.7 (https://arxiv.org/html/2606.26775#S3.SS7))。

### 3.1 预备知识

为了考察多媒体事件提取中评估问题的来源和影响，我们采用 M2E2 基准 Li et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib1))。我们的选择主要基于两个考虑：(1) M2E2 是公开可用的，并且据我们所知，是多媒体事件提取研究中使用最广泛的基准。(2) 如 §2.2 (https://arxiv.org/html/2606.26775#S2.SS2) 所讨论的，替代基准通常是不完整的 Chen et al. (2021 (https://arxiv.org/html/2606.26775#bib.bib28)); Zhang et al. (2024 (https://arxiv.org/html/2606.26775#bib.bib18)) 或不可访问 Wang et al. (2023 (https://arxiv.org/html/2606.26775#bib.bib33)); Liu et al. (2025b (https://arxiv.org/html/2606.26775#bib.bib14))。

#### M2E2 数据集

在图 1 (https://arxiv.org/html/2606.26775#S2.F1) 中，我们展示了完整的任务及其组成部分。M2E2 基准包含来自 245 个多模态新闻文档的 6,167 个句子和 1,014 张图像，这些文档从 108k 个美国之音 (VOA) 文档中收集。总体而言，事件涵盖 8 种事件类型和 15 种论元角色，包含 1297 个文本事件和 391 个视觉事件。其中，存在 309 个多媒体事件，由 192 个文本事件和 203 个视觉事件进行共指。由于没有训练数据，该基准采用 ACE Walker, Christopher et al. (2006 (https://arxiv.org/html/2606.26775#bib.bib34)) 用于文本，采用 imSitu Yatskar et al. (2016 (https://arxiv.org/html/2606.26775#bib.bib21)) 用于视觉，并辅以 SWiG Pratt et al. (2020 (https://arxiv.org/html/2606.26775#bib.bib22)) 中的对象定位。

多模态事件抽取中的评估陷阱与挑战

相似文章

迈向评估工程：对现实环境中机器学习评估框架的实证研究

MVEB：大规模视频嵌入基准

Artifact-Bench：评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力

用于事实核查的多模态声明提取

MemEye：面向多模态智能体记忆的视觉中心评估框架

提交意见反馈