SSDAU: 面向联合实体关系抽取的结构化语义数据增强

arXiv cs.CL 论文

摘要

提出SSDAU,一种面向联合实体关系抽取的结构化语义数据增强方法,通过基于实体标签分割文本并利用BERTTopic保持主题一致性,从而保留语义结构,显著优于现有增强方法。

arXiv:2605.23440v1 公告类型:新 摘要:联合实体关系抽取(JERE)因训练数据质量低下而极易出现泛化能力弱的问题。数据增强是提升模型跨领域泛化能力的常用策略。然而,现有数据增强方法常常忽略文本相关性,可能破坏语义结构和依赖关系,导致难以生成有效的增强数据以提升模型泛化能力。本文提出结构化语义数据增强(SSDAU),一种旨在增强过程中保留文本语义结构的新方法。SSDAU基于实体标签分割文本,并利用编码器通过上下文感知捕获实体的语义特征。随后进行实体语义重构以生成增强数据。为区分语义相似的实体,SSDAU将上下文嵌入与传统相似度分数融合。为缓解潜在的主题模糊性和信息丢失,我们应用BERTTopic模型过滤无关主题,确保主题一致性。我们在不同标注类型的数据集上评估SSDAU,并将其在五个代表性JERE模型上的性能与七种流行数据增强基线进行比较。实验表明,SSDAU生成的语义一致性数据具有卓越的抗歧义鲁棒性(8.26\% F1 decrease vs.\ 31.91\% for baselines),在所有指标上显著优于现有方法。
查看原文
查看缓存全文

缓存时间: 2026/05/25 09:02

# SSDAU:面向联合实体关系抽取的结构化语义数据增强
来源:https://arxiv.org/html/2605.23440
贾伟贺1,2 jiaweihe@smail\.nju\.edu\.cn&石梦雨1 mengyushi@smail\.nju\.edu\.cn&房春荣1,∗ fangchunrong@nju\.edu\.cn 1南京大学计算机软件新技术国家重点实验室,南京,中国 2高德地图,阿里巴巴集团,中国 ∗通讯作者

###### 摘要

联合实体关系抽取(JERE)因训练数据质量低下而极易出现弱泛化问题。数据增强是提升模型跨领域泛化能力的常用策略。然而,现有数据增强方法往往忽略文本相关性,可能破坏语义结构和依赖关系,难以生成有效增强数据以改进模型泛化。本文提出结构化语义数据增强(SSDAU),一种在增强过程中保持文本语义结构的新方法。SSDAU基于实体标签对文本进行分割,并利用编码器通过上下文感知捕获实体的语义特征,随后执行实体语义重组以生成增强数据。为区分语义相似的实体,SSDAU将上下文嵌入与传统相似度分数融合。为缓解潜在的主题模糊性和信息丢失,我们应用BERTTopic模型过滤不相关主题,确保主题一致性。我们在不同标注类型的数据集上评估SSDAU,并将其在五种代表性JERE模型上的性能与七种流行的数据增强基线进行比较。实验表明,SSDAU生成语义一致的数据,且对抗歧义具有优越的鲁棒性(F1下降8.26%,基线下降31.91%),在所有指标上显著优于现有所有方法。

## 1 引言

联合实体关系抽取(JERE)因其在信息检索(Lin等,2020 (https://arxiv.org/html/2605.23440#bib.bib41))、问答(Abdelaziz等,2021 (https://arxiv.org/html/2605.23440#bib.bib42))和文本摘要(Zhong等,2020 (https://arxiv.org/html/2605.23440#bib.bib43))等应用中的强大性能而被广泛用于文本数据的表示学习。JERE模型的泛化性能高度依赖于训练数据的质量和规模。增强泛化的常见策略是数据增强。诸如MixUp(Cheng等,2020 (https://arxiv.org/html/2605.23440#bib.bib45))和回译(Xie等,2020 (https://arxiv.org/html/2605.23440#bib.bib46))等技术通过从原始样本生成带有细微扰动的数据,实现训练集的有效扩充。

然而,将现有技术应用于增强JERE模型泛化时的一个关键挑战是,向原始数据引入噪声或扰动可能会削弱实体相关性(Kambhatla等,2022 (https://arxiv.org/html/2605.23440#bib.bib47))。在错误生成的数据上训练最终会降低JERE模型的性能。此外,实体通常涉及多个三元组,具有复杂的语义关系和依赖。现有数据增强方法可能破坏这些结构和依赖,导致重叠关系和级联等问题(Liu等,2020 (https://arxiv.org/html/2605.23440#bib.bib35))。

为解决此问题,我们提出结构化语义数据增强(SSDAU),以在数据增强过程中保持文本的语义结构。SSDAU不直接扰动文本,而是对齐三元组文本以维持语义完整性。首先,我们使用基于特征的编码器分割文本,确保每个片段保留其邻近区域的语义。接着,我们使用解码器匹配具有相似语义标签的片段。我们的方法将上下文嵌入与预训练的汇聚权重相结合,以区分语义相似但不同的实体,并采用主题感知一致性过滤防止错误传播。最后,我们替换具有高相似度的文本来重组原始文本,生成增强数据同时保持语义连贯性。为减轻错误传播,我们采用主题感知一致性过滤机制,使用BERTTopic模型对候选三元组进行评分,并消除与黄金标准语义不一致的三元组。

为评估SSDAU的效果,我们在四个广泛使用的数据集上将其与七种基线方法进行了性能比较。实验结果验证了我们的主要发现:SSDAU在常见数据和低质量数据场景下均始终优于其他方法。我们的消融研究进一步强化了这一结论。即使在面对语义歧义时,SSDAU仍能保持稳定性能,在所有数据集上平均F1分数仅下降8.26%,而其他基线则遭受显著退化。这种鲁棒性能也体现在整体有效性上,SSDAU在所有数据集上达到平均精确率92.03%和F1分数91.96%,显著优于包括近期方法ChatIE在内的所有基线。

## 2 相关工作

#### 信息抽取

JERE是一项基础的NLP任务,旨在映射实体和关系,基于它们的相关性生成文本到三元组的模型,并将三元组赋予新的标注(Fu等,2019 (https://arxiv.org/html/2605.23440#bib.bib10))。早期JERE模型多采用联合建模(Ren等,2017 (https://arxiv.org/html/2605.23440#bib.bib9))或序列标注(38 (https://arxiv.org/html/2605.23440#bib.bib8))来共同抽取实体和关系。它们专注于结构化学习,通过手动构建特征、构建信息表或知识来增强实体抽取和关系识别的相关性(Miwa and Bansal, 2016 (https://arxiv.org/html/2605.23440#bib.bib11))。然而,手动构建的特征难以在不同应用中取得良好效果。为应对这一挑战,Zhao等人(Zhao等,2021 (https://arxiv.org/html/2605.23440#bib.bib12))提出将JERE任务分解并通过修改分类过程完成上下文学习。他们将JERE模型分为三类:多模块多步(Zheng等,2021 (https://arxiv.org/html/2605.23440#bib.bib14); Wei等,2020 (https://arxiv.org/html/2605.23440#bib.bib15))、多模块单步(Sui等,2020 (https://arxiv.org/html/2605.23440#bib.bib13); Wang等,2020 (https://arxiv.org/html/2605.23440#bib.bib17))和单模块单步(Shang等,2022 (https://arxiv.org/html/2605.23440#bib.bib16))。这些模型的准确性受限于训练数据的质量,我们的结构化语义数据增强方法可以帮助生成大量高质量数据,在JERE模型的基础和下游应用中具有很大优势。

#### 语义匹配

语义匹配是文本匹配的一个子任务,用于在搜索场景中检索语义相似的文本(Wu等,2022 (https://arxiv.org/html/2605.23440#bib.bib18))。一些代表性方法包括余弦相似度、词频-逆文档频率(TF-IDF)计算和深度结构化语义模型(DSSM)(Gao等,2021 (https://arxiv.org/html/2605.23440#bib.bib19))。近年研究表明,预训练语义分类模型可以有效压缩大量文本并提升语义匹配模型的泛化能力(Brown等,2020 (https://arxiv.org/html/2605.23440#bib.bib24))。例如,*Similarities*(张冰玉,2022 (https://arxiv.org/html/2605.23440#bib.bib23))的出现为文本语义匹配任务开发实用应用提供了坚实基础。特别是,*Similarities*的语义匹配功能因其在文本关系抽取中的优越效果而得到广泛认可。因此,基于现有文本相似度匹配技术,我们通过文本语义匹配改进了现有的JERE工作。

图1:SSDAU概述。数据离散化与重构组件使用编码器对文本数据SS进行语义离散化,并以分段集合的形式输出文本集合。解码器随后处理这些分段集合,以促进结构化语义数据增强组件,其中输入视图基于相似度匹配,输出视图重点进行数据增强。最后,基于评分的一致性过滤组件使用结构化语义分类器过滤低资源数据,剩余的增强数据£和T用作增强数据Sg,训练更鲁棒的JERE模型。

#### 数据增强

数据增强是一种经济高效的方法,可以提升机器学习模型的性能和准确性,尤其在数据受限的环境下(Cashman等,2020 (https://arxiv.org/html/2605.23440#bib.bib25))。NLP中常用的数据增强技术包括近义词替换(Wei and Zou, 2019 (https://arxiv.org/html/2605.23440#bib.bib28))、词向量替换(Wang and Yang, 2015 (https://arxiv.org/html/2605.23440#bib.bib29))、掩码语言模型替换(Jiao等,2020 (https://arxiv.org/html/2605.23440#bib.bib30))、回译(Zhang等,2020 (https://arxiv.org/html/2605.23440#bib.bib31))、加噪(Min等,2020 (https://arxiv.org/html/2605.23440#bib.bib32); Yan等,2019 (https://arxiv.org/html/2605.23440#bib.bib33); Hou等,2018 (https://arxiv.org/html/2605.23440#bib.bib34))等。此外,Zhang等人(Zhang等,2015 (https://arxiv.org/html/2605.23440#bib.bib26))和Jonas等人(Mueller and Thyagarajan, 2016 (https://arxiv.org/html/2605.23440#bib.bib27))提出了一种词汇替换方法用于增强数据,通过词语近义性保留原始语义。然而,该方法受限于近义词表的大小和词汇覆盖范围。与现有采用简单扰动(Liu等,2020 (https://arxiv.org/html/2605.23440#bib.bib35))或额外增强模型(Hou等,2021 (https://arxiv.org/html/2605.23440#bib.bib51); Hu等,2019 (https://arxiv.org/html/2605.23440#bib.bib60))的方法不同,我们提出了基于采样的增强,通过保持样本的语义逻辑生成具有相同语义结构的数据。

## 3 方法

本节首先定义问题,然后介绍SSDAU的三个主要组件:1) 数据离散化与重构,2) 结构化语义数据增强,3) 基于评分的一致性过滤。

### 3.1 预备知识

给定包含LL个token和KK个预定义关系R={r1,r2,...,rK}的句子集合S={s1,s2,...,sN},我们抽取实体和关系以构建S中的三元组T={(hi,ri,ti)}i=1M,其中hi、ti分别为头实体和尾实体,N表示句子数量,M表示三元组数量。在此过程中,我们维护一个三维矩阵ML∗K∗L以存储已有知识。

由于三元组是JERE的核心输出格式,我们以三元组作为数据增强的基本单元,并根据三元组对文本进行划分,得到三个文本集合序列。为保留分割文本的上下文语义,我们保留每个分割文本的上下文token l,并记录每个切割点p的位置。

### 3.2 数据离散化与重构

#### 编码器

我们以三元组作为数据增强的基本单元,以消除文本扰动带来的噪声。我们设计了一个基于文本特征的编码器E。编码器的输入是句子文本S,对于每个句子si,我们根据三元组标签(ρhi,ρri,ρti)找到指定的文本块(qhi,qri,qti),并记录上下文token (lhi,lri,lti)和切割位置(phi,pri,pti)。编码器处理所有输入文本,并根据标签类型得到三个输出文本集合:头实体集合Qh、尾实体集合Qt和关系实体集合Qr。

图2:我们基于特征的编码器结构。

#### 解码器

我们基于句子集合S中的KK种关系类型和MM个三元组标签设计了一种相似度形式,并将其作为设计基于形式相似度的文本匹配解码器D的基础。解码器D的输入为(Qh,Qt,Qs),它根据关系类型和标签类型划分文本集合,得到LKLL组具有相同关系类型和相同标签的文本库B={B1,B2,...,BLKL}。

### 3.3 结构化语义数据增强

#### 离散文本匹配

我们基于语义相似度评估工具*Similarities*设计了一个文本匹配器,以对齐解码器的输出。解码器输出组Bi={b1,b2,...,bj}中的文本块b存储了文本q、上下文token l、标签类型ρ和分割位置p。我们在不同文本语料Bi中的所有b之间进行匹配,包含语义、句法和词汇相似度评估,以及上下文token相似度评估。为有效区分语义相似但不同的实体,我们通过引入预训练BERT编码器的上下文[CLS]嵌入来增强此过程,并应用预训练的汇聚权重计算实体级别的语义相关性。然后将此相关性分数与原始语义相似度分数融合,得到混合相似度度量。匹配结果归一化为0到1之间的值,并插入按相似度降序排序的优先级队列。最后,对于每个Bi,我们得到一个基于相似度的优先级队列Pi。

#### 数据增强

完成相似度匹配后,我们过滤出优先级队列Pi={P1,P2,...,PKM}中相似度得分低于阈值ε的数据。对于剩余数据,我们根据每个块信息中记录的分割位置l替换相应文本块的文本内容,从而生成增强数据。

### 3.4 基于评分的分类器

为进一步提升增强数据的质量,我们使用BERTTopic模型识别并保留主题描述中的关键术语。然后我们过滤掉与不相关主题关联的增强数据,确保生成文本的主题连贯性。

首先,从文本中抽取所有实体和关系。然后,使用BERT(Kenton and Toutanova, 2019 (https://arxiv.org/html/2605.23440#bib.bib36))对token进行编码。接着,以(lh,r,lt)的形式组合实体和关系,并使用联合实体关系抽取(Shang等,2022)进行三元组抽取。最后,应用函数计算头尾实体之间的相关性。评分函数定义为:

h⋆t=φ(W[lh;lt]T+b) (1)

其中h和t分别代表头实体和尾实体。

相似文章

TERGAD: 面向图异常检测的结构感知文本增强表示

arXiv cs.CL

TERGAD是一种新颖的数据增强框架,利用大语言模型将节点级别的拓扑属性转化为语义描述,然后通过门控双分支自编码器将这些语义描述与原始节点属性融合,用于图异常检测,在六个数据集上取得了最先进的结果。