超越干净文本：在噪声文本中评估编码器和解码器对孟加拉语事件检测的鲁棒性

arXiv cs.CL 2026/07/01 04:00 论文

摘要

本文介绍了一个包含噪声文本（ASR、拼写错误）的孟加拉语事件检测基准，并评估了仅编码器和仅解码器的大语言模型，发现解码器模型对噪声的鲁棒性更强。

arXiv:2606.30914v1 公告类型：新摘要：事件检测（ED）系统通常在干净、精心整理的文本上进行评估，这使得它们对现实世界噪声的鲁棒性在很大程度上未被探索，尤其是对于孟加拉语等低资源语言。我们引入了一个通用的孟加拉语新闻事件本体和一个包含9,979个标注句子的基准，涵盖40个事件子类型，包括干净新闻文本、现实世界自动语音识别（ASR）转录文本以及拼写错误文本。我们系统性地评估了微调的仅编码器模型（BanglaBERT和XLM-R）以及指令微调的仅解码器大语言模型（Llama 3和Gemma 3）。我们的结果揭示了清晰的架构权衡：编码器模型在干净文本上表现更好，但在噪声下性能大幅下降，而仅解码器LLM明显更加鲁棒，特别是在事件触发词被破坏时。我们进一步表明，在指令微调过程中嵌入注释指南可以在噪声文本上建立更高的性能基线，但在不同噪声条件下性能下降的减少不一致。最后，模型缩放持续提高仅解码器LLM的鲁棒性，而在干净和噪声数据上的联合训练作为一种有效的正则化策略，对编码器架构的益处尤为显著，显著缩小了鲁棒性差距。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:31

# 超越干净文本：评估编码器与解码器在噪声文本中孟加拉语事件检测的鲁棒性
来源: https://arxiv.org/html/2606.30914
Tanvir Ahmed Sijan¹, †S\. M Golam Rifat², Nayeemul Islam³, Md\. Musfique Anwar¹  
¹Jahangirnagar University, Dhaka, Bangladesh, ²Rajshahi University of Engineering & Technology, Rajshahi, Bangladesh, ³Bangladesh University of Engineering and Technology, Dhaka, Bangladesh  
\{sijantanv, golamrifat, nayeemulislam\.eee\.buet\}@gmail\.com, manwar@juniv\.edu  
†通讯作者

###### 摘要

事件检测(ED)系统通常基于干净、精心整理的文本进行评估，其对现实世界噪声的鲁棒性很大程度上未被探索，尤其是对于孟加拉语等低资源语言。我们引入了一个通用的孟加拉语新闻事件本体和一个包含9979条标注句子的基准数据集，涵盖40个事件子类型，包括干净新闻文本、真实世界自动语音识别(ASR)转录本以及正字法损坏文本。我们系统评估了微调的仅编码器模型(BanglaBERT和XLM-R)以及指令微调的仅解码器大型语言模型(Llama 3和Gemma 3)。我们的结果揭示了一个明确的架构权衡：编码器模型在干净文本上表现更高，但在噪声下显著退化，而仅解码器LLM明显更鲁棒，尤其是当事件触发词被损坏时。我们进一步表明，在指令微调过程中嵌入标注指南可以在噪声文本上建立更高的性能基线，但在不同噪声条件下性能退化的减少并不一致。最后，模型规模扩大持续提升仅解码器LLM的鲁棒性，而干净数据和噪声数据的联合训练作为一种有效的正则化策略，对编码器架构的益处尤为突出，显著缩小了鲁棒性差距。

\[ Path=\./font/, Script=Bengali, SizeFeatures=Size=11 \]

超越干净文本：评估编码器与解码器在噪声文本中孟加拉语事件检测的鲁棒性

Tanvir Ahmed Sijan¹, †S\. M Golam Rifat², Nayeemul Islam³, Md\. Musfique Anwar¹  
¹Jahangirnagar University, Dhaka, Bangladesh,  
²Rajshahi University of Engineering & Technology, Rajshahi, Bangladesh,  
³Bangladesh University of Engineering and Technology, Dhaka, Bangladesh,  
\{sijantanv, golamrifat, nayeemulislam\.eee\.buet\}@gmail\.com, manwar@juniv\.edu  
†通讯作者

## 1 引言

事件检测(ED)任务识别并分类自然语言中的事件[Ahn, 2006](https://arxiv.org/html/2606.30914#bib.bib1)。它是信息检索的基础组成部分。提取结构化事件框架对于下游应用至关重要，尤其是在应急监控系统中，快速准确的信息检索至关重要。尽管重要，但大多数事件检测研究几乎完全专注于干净、精心整理的文本[Wang et al., 2020](https://arxiv.org/html/2606.30914#bib.bib38); [Pouran Ben Veyseh et al., 2022](https://arxiv.org/html/2606.30914#bib.bib27); [Yao et al., 2022](https://arxiv.org/html/2606.30914#bib.bib40)。在现实世界应用中，数据本质上是噪声的。即使是微小的拼写错误或转录故障，也可能导致传统事件检测系统混淆，完全遗漏重要事件。

参见标题 图1: 现实世界噪声会严重降低事件检测性能，即使事件触发词本身未改变。干净示例来自我们的干净测试集，其对应版本使用模拟正字法噪声生成。ASR示例来自真实孟加拉语新闻视频转录本，并采用相同事件本体独立标注，引入了自然出现的转录错误、分布外词汇和转录伪影。作为低资源语言，孟加拉语的事件检测研究仍然有限。现有工作主要聚焦于干净文本和狭窄领域，例如暴力事件[Khandokar et al., 2020](https://arxiv.org/html/2606.30914#bib.bib18); [Dey et al., 2021](https://arxiv.org/html/2606.30914#bib.bib7); [Ali Khandokar et al., 2025](https://arxiv.org/html/2606.30914#bib.bib3)、灾难[Dave et al., 2021](https://arxiv.org/html/2606.30914#bib.bib6)或犯罪相关事件[Hossain et al., 2025](https://arxiv.org/html/2606.30914#bib.bib13)。此外，目前没有类似广泛使用的ACE 2005模式[Walker, Christopher et al., 2006](https://arxiv.org/html/2606.30914#bib.bib37)那样用于基于触发词的事件检测的通用新闻事件本体，从而限制了对该任务的系统研究。

即使是关于噪声孟加拉语文本的研究也很少，少数现有研究主要集中于情感分析[Islam et al., 2021](https://arxiv.org/html/2606.30914#bib.bib17); [Elahi et al., 2024](https://arxiv.org/html/2606.30914#bib.bib10)。情感分析和事件检测提出了根本不同的挑战。情感分析通常在序列或文档级别操作，而事件检测需要细粒度的词元级别的事件触发词识别和分类。

历史上，事件提取一直由基于BERT的编码器模型主导[Wang et al., 2020](https://arxiv.org/html/2606.30914#bib.bib38); [Pouran Ben Veyseh et al., 2022](https://arxiv.org/html/2606.30914#bib.bib27); [Huang et al., 2024](https://arxiv.org/html/2606.30914#bib.bib15)。这与当前主导LLM领域的仅解码器模型形成对比，后者在结构化提取任务中的应用传统上受到幻觉和生成符合预定义结构输出的困难的限制。然而，最近的研究试图通过代码式表示[Wang et al., 2023](https://arxiv.org/html/2606.30914#bib.bib39)、融入句子级上下文信息[Al Monsur et al., 2026](https://arxiv.org/html/2606.30914#bib.bib2)以及使用标注指南进行指令微调以增强跨模式泛化[Srivastava et al., 2025](https://arxiv.org/html/2606.30914#bib.bib34)等技术来提升LLM在事件提取上的表现，同时也探索了针对复杂事件论元提取的生成式公式[Sharif et al., 2024](https://arxiv.org/html/2606.30914#bib.bib31)。

鉴于这些将LLM适应于结构化预测任务的最新方法论进展，一个重要的问题出现了：这些模型在现实世界噪声条件下与基于BERT的对应模型相比如何？这个问题对孟加拉语尤其相关，因为可用的预训练编码器模型数量和规模有限，而最近的多语言LLM在该语言上表现出越来越强的能力。

为了解决这些问题，我们对从孟加拉语报纸收集的5320个句子和同一领域内从孟加拉语新闻视频获得的4659个自动语音识别(ASR)转录句子进行了标注。我们评估了基于编码器和仅解码器模型的事件检测性能。对于仅解码器模型，我们将事件检测公式化为结构化的代码生成任务，遵循[Wang et al., 2023](https://arxiv.org/html/2606.30914#bib.bib39)的方法，并可选地在提示中嵌入标注指南[Sainz et al., 2024](https://arxiv.org/html/2606.30914#bib.bib29); [Srivastava et al., 2025](https://arxiv.org/html/2606.30914#bib.bib34)。此外，为了模拟正字法噪声，我们采用了[Sifat et al., 2020](https://arxiv.org/html/2606.30914#bib.bib32)的错误生成算法（该算法通过分析常见的孟加拉书写模式和打字行为开发），并在不同噪声程度下评估模型鲁棒性。总之，我们的贡献如下：

- • 我们开发了一个用于孟加拉语事件检测的通用新闻领域事件模式，并发布了一个包含9979个标注句子的数据集，涵盖干净新闻文本和噪声ASR转录本，包含7813个事件提及，覆盖40个事件子类型。
- • 我们提供了基于编码器和仅解码器架构在多种噪声条件下的系统比较，包括不同参数规模和不同程度的孟加拉语支持。对于仅解码器模型，我们采纳了最近关于通过指令微调和基于代码的表示进行结构化输出生成的建议。
- • 我们首次对孟加拉语事件检测在真实世界ASR诱导噪声和模拟正字法噪声下的鲁棒性进行了全面研究，提供了关于现代多语言LLM与传统基于编码器方法的相对优势和局限性的洞察。

参见标题 图2: 数据集构建、训练和评估流程概述。我们开发了一个通用的孟加拉语新闻事件本体，收集了主题平衡的新闻和ASR语料库，并使用相同事件模式对两者进行标注。仅编码器和仅解码器模型在两种设置下训练：干净训练集和联合训练集（干净 + ASR）。仅解码器LLM使用代码格式的提示进行指令微调，提示中可选地包含嵌入为Python文档字符串的标注指南。在干净测试集、真实世界ASR转录噪声测试集和模拟正字法噪声测试集上评估鲁棒性。

## 2 相关工作

早期事件检测系统依赖于特征工程和统计学习技术[Ahn, 2006](https://arxiv.org/html/2606.30914#bib.bib1); [Patwardhan and Riloff, 2009](https://arxiv.org/html/2606.30914#bib.bib26); [Hong et al., 2011](https://arxiv.org/html/2606.30914#bib.bib12); [Li et al., 2013](https://arxiv.org/html/2606.30914#bib.bib22)。最近，预训练的Transformer编码器如BERT已成为主流范式，显著推动了触发词检测性能[Nguyen et al., 2021](https://arxiv.org/html/2606.30914#bib.bib24); [Wang et al., 2020](https://arxiv.org/html/2606.30914#bib.bib38); [Pouran Ben Veyseh et al., 2022](https://arxiv.org/html/2606.30914#bib.bib27); [Huang et al., 2024](https://arxiv.org/html/2606.30914#bib.bib15)。除了这些架构进步，最近的工作也聚焦于开发跨不同领域的事件检测数据集[Kim et al., 2009](https://arxiv.org/html/2606.30914#bib.bib19); [Sims et al., 2019](https://arxiv.org/html/2606.30914#bib.bib33); [Le and Nguyen, 2021](https://arxiv.org/html/2606.30914#bib.bib20); [Yao et al., 2022](https://arxiv.org/html/2606.30914#bib.bib40)以及跨语言的数据集[Pouran Ben Veyseh et al., 2022](https://arxiv.org/html/2606.30914#bib.bib27); [Touileb et al., 2024](https://arxiv.org/html/2606.30914#bib.bib36)。MAVEN[Wang et al., 2020](https://arxiv.org/html/2606.30914#bib.bib38)、RAMS[Ebner et al., 2020](https://arxiv.org/html/2606.30914#bib.bib9)和TextEE基准[Huang et al., 2024](https://arxiv.org/html/2606.30914#bib.bib15)等大规模资源已成为现代事件检测研究的标准评估平台。

与英语事件检测的大量文献相比，孟加拉语受到的关注要少得多。现有研究主要开发了针对特定应用领域的任务专用数据集和模型，包括暴力事件[Khandokar et al., 2020](https://arxiv.org/html/2606.30914#bib.bib18); [Dey et al., 2021](https://arxiv.org/html/2606.30914#bib.bib7); [Ali Khandokar et al., 2025](https://arxiv.org/html/2606.30914#bib.bib3)、灾难[Dave et al., 2021](https://arxiv.org/html/2606.30914#bib.bib6)和犯罪相关新闻[Hossain et al., 2025](https://arxiv.org/html/2606.30914#bib.bib13)。此外，公开资源没有提供与ACE 2005[Walker, Christopher et al., 2006](https://arxiv.org/html/2606.30914#bib.bib37)相当的通用新闻领域本体，使得跨不同事件类别的标准化评估变得困难。关于噪声孟加拉语文本的研究同样有限，且主要集中于句子级任务如情感分析[Islam et al., 2021](https://arxiv.org/html/2606.30914#bib.bib17); [Elahi et al., 2024](https://arxiv.org/html/2606.30914#bib.bib10)，而非词元级的触发词识别。

仅解码器LLM的快速发展最近激发了它们应用于事件提取的尝试。最近的研究探索了通过结构化代码表示[Wang et al., 2023](https://arxiv.org/html/2606.30914#bib.bib39)、上下文感知编码器[Al Monsur et al., 2026](https://arxiv.org/html/2606.30914#bib.bib2)以及使用标注指南进行指令微调以提升模式理解和跨模式泛化[Srivastava et al., 2025](https://arxiv.org/html/2606.30914#bib.bib34)来使LLM适应此任务。除了事件提取，标注指南也被证明能改善其他信息提取任务，包括命名实体识别[Sainz et al., 2024](https://arxiv.org/html/2606.30914#bib.bib29)和关系抽取[Pang et al., 2023](https://arxiv.org/html/2606.30914#bib.bib25)。然而，这些方法几乎完全在干净的英语基准上进行评估，使得仅编码器和仅解码器模型的鲁棒性，以及指令微调过程中标注指南的影响，在现实噪声条件下基本未被探索。

在这项工作中，我们以孟加拉语作为代表性低资源语言来解决这些空白。我们引入了一个通用的孟加拉语新闻事件本体，构建了一个包含干净新闻文章、真实世界ASR转录本和模拟正字法噪声的基准数据集，并系统比较了微调的仅编码器和指令微调的仅解码器模型。我们进一步调查了标注指南是否能在噪声条件下改善模型性能和鲁棒性。

## 3 基准开发

### 3.1 任务表述

我们通过两种不同的建模范式评估事件检测：对于仅编码器架构，采用词元分类；对于仅解码器大型语言模型，采用结构化序列生成。

形式化地，令一个长度为\(n\)的输入文本序列定义为\(X=[x_1, x_2, \dots, x_n]\)。我们的本体包含一个预定义的事件类型集合\(\mathcal{E}\)。事件检测系统的目标是从\(X\)中提取一组事件实例\(Y\)。每个提取的事件实例定义为一个三元组\((i, j, t)\)，其中\([x_i, \dots, x_j]\)表示触发事件的连续文本跨度，而\(t \in \mathcal{E}\)是预测的事件类型。为了系统评估不同架构的能力，\(Y\)的提取通过两种范式表述：

##### 事件检测作为词元分类。

在这种传统的序列标注范式下，任务被框架化为一个词元级分类问题。模型处理输入文本\(X\)并为每个词元分配一个标签\(y_k\)。模型必须同时执行触发词识别（定位触发跨度的边界\(i\)和\(j\)）和触发词分类（将识别出的跨度映射到事件类型\(t \in \mathcal{E}\)）。

##### 事件检测作为结构化序列生成。

对于生成式LLM，任务被重新定义为条件序列生成。给定输入句子\(X\)、自然语言任务指令\(I\)以及特定事件类型\(t \in \mathcal{E}\)的目标事件模式\(E_t\)，我们构建一个统一的提示\(P\)：

\[
P = [I \oplus E_t \oplus X]
\]
(1)

其中\(\oplus\)表示字符串拼接。指令\(I\)规定了提取规则和期望的结构化输出格式，而\(E_t\)提供了事件类型的详细定义。

超越干净文本：在噪声文本中评估编码器和解码器对孟加拉语事件检测的鲁棒性

相似文章

编码器足够吗？LLM对抗评估中编码器与解码器安全评判器的系统比较

CBRS：基于双语数据集与双层过滤的多平台社交流认知血液请求系统

DetectRL-X：面向可靠的多语言及真实世界的LLM生成文本检测

MultiSoc-4D：用于诊断孟加拉语社交媒体封闭集大语言模型标注中指令诱导标签崩溃的基准

用于鲁棒代码切换语音识别的基于LLM生成的近失对比训练

提交意见反馈