对齐隐含语句以提升隐含仇恨言论跨数据集泛化性：基于上下文有界半硬负样本挖掘

arXiv cs.CL 2026/06/18 04:00 论文

摘要

本文提出ImpSH，一种基于三元组的隐含仇恨言论分类框架，该框架将帖子与隐含语句对齐，并使用上下文有界半硬负样本挖掘来提高跨数据集的泛化能力。

arXiv:2606.18852v1 公告类型：新摘要：分类隐含仇恨言论仍然是一个挑战，因为意图通常通过暗示和上下文而非明确的辱骂来掩盖。先前的监督对比方法改善了领域内检测，但可能过拟合表面线索，难以跨数据集迁移。我们提出ImpSH，一种基于三元组的框架，当可用时将帖子与隐含语句对齐，并使用上下文有界半硬负样本来聚焦于近似混淆的学习。我们还研究了AugSH，它通过数据增强形成正样本。在使用BERT和HateBERT对IHC、SBIC和DynaHate进行的受控评估中，ImpSH是标准监督对比基线的可行替代方案，并且在匹配的预处理和调优预算下经常改善跨域性能。使用对齐性和均匀性的表示分析表明正样本对更紧密且全局分布更均衡，定性的最近邻案例研究展示了领域偏移下的典型假负例。这些结果表明，通过上下文有界挖掘将帖子与其隐含语句对齐，提供了到相关暗示的更稳定、类似双射的映射，克服了传统基于聚类的表示学习中固有的不稳定性。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:46

# 通过上下文限制的半难负样本挖掘，对齐隐含语句以实现隐晦仇恨言论的泛化能力  
来源：https://arxiv.org/html/2606.18852  

Wicaksono Leksono Muhamad♢,♠ Yunita Sari♠  
♢Mantera Studio  
♠Universitas Gadjah Mada  
wicaksonoleksonomuhamad2001@mail\.ugm\.ac\.id  
yunita\.sari@ugm\.ac\.id  

代码 (https://github.com/airlanggawicaksono/acl-future/)  

###### 摘要  

识别隐晦仇恨言论仍是一项挑战，其恶意意图常通过暗示和上下文而非显式侮辱性词汇来掩盖。以往的监督对比学习方法虽能提升域内检测性能，但容易过度拟合表面线索，且难以跨数据集迁移。我们提出 **ImpSH**，一个基于三元组的框架，在可用时将对齐帖子和其隐含语句，并利用上下文限制的半难负样本来聚焦于学习那些易于混淆的案例。我们还探讨了 **AugSH**，它通过数据增强构建正样本。在 IHC、SBIC 和 DynaHate 数据集上，使用 BERT 和 HateBERT 进行的受控评估表明，ImpSH 是标准监督对比基线的可行替代方案，且在匹配的预处理和调参预算下，常能提升跨域性能。通过对齐性和均匀性进行的表示分析表明，正样本对更紧密，同时全局分布更均匀，定性的最近邻案例研究则展示了域迁移下典型的假负样本情况。这些结果表明，通过上下文限制的挖掘方式将帖子与其隐含语句对齐，能够提供一种更稳定、类似双射的映射，将帖子相关暗示联系起来，克服了传统基于聚类的表示学习中固有的不稳定性。  

**对齐隐含语句以实现隐晦仇恨言论泛化能力——基于上下文限制的半难负样本挖掘**  

Wicaksono Leksono Muhamad♢,♠ Yunita Sari♠  
♢Mantera Studio  
♠Universitas Gadjah Mada  
wicaksonoleksonomuhamad2001@mail\.ugm\.ac\.id  
yunita\.sari@ugm\.ac\.id  

代码 (https://github.com/airlanggawicaksono/acl-future/)  

## 内容警告  

本文可能包含冒犯性、有害性或令人不安的语言，包括仇恨言论和歧视性表达的示例。这些材料仅用于研究目的，不代表作者观点。建议读者谨慎阅读。  

## 1 引言  

参考图说明  
图 1：共享相似隐含目标的帖子形成紧密但支离破碎的聚类；即使在同一人口群体内，微小的措辞变化也会导致数据点分散（ElSherief 等，2021 (https://arxiv.org/html/2606.18852#bib.bib26)）。  

识别隐晦仇恨言论具有挑战性，因为恶意意图常通过讽刺、委婉语、反问句及其他语用线索间接表达，因此表面文本特征往往不足（ElSherief 等，2021 (https://arxiv.org/html/2606.18852#bib.bib26)；Sap 等，2020 (https://arxiv.org/html/2606.18852#bib.bib25)；Kim 等，2022 (https://arxiv.org/html/2606.18852#bib.bib1)；Zhang 等，2024 (https://arxiv.org/html/2606.18852#bib.bib4)）。第二个挑战是与非仇恨内容的语义重叠：针对同一群体的帖子可能具有相似的主题内容，尽管标签不同，这模糊了决策边界，削弱了监督信号（Sap 等，2020 (https://arxiv.org/html/2606.18852#bib.bib25)；ElSherief 等，2021 (https://arxiv.org/html/2606.18852#bib.bib26)）。当边界薄弱时，标准训练可能学习到与主题和群体相关表面线索的数据集特定捷径，从而降低跨数据集的泛化能力及向相关辱骂语言场景的迁移能力（Nejadgholi and Kiritchenko, 2020 (https://arxiv.org/html/2606.18852#bib.bib59)；Röttger 等，2022 (https://arxiv.org/html/2606.18852#bib.bib6)；Sap 等，2019 (https://arxiv.org/html/2606.18852#bib.bib60)）。图 1 (https://arxiv.org/html/2606.18852#S1.F1) 展示了针对同一目标人群的示例所面临的这一问题。尽管标签不同，但许多实例共享主题和群体提及，在表示空间中距离可能很近，因此准确检测需要推断意图和隐含含义，而不仅仅是匹配表面措辞。  

为处理语义重叠问题，先前工作采用了监督对比学习（SCL），尤其是 **ImpCon**。ImpCon 将每个帖子拉向其人工标注的隐含语句，形成正样本对（Khosla 等，2020 (https://arxiv.org/html/2606.18852#bib.bib11)；Gunel 等，2021 (https://arxiv.org/html/2606.18852#bib.bib27)；Kim 等，2022 (https://arxiv.org/html/2606.18852#bib.bib1)）。然而，标准 SCL 在训练批次中将多数其他样本视为负样本；在隐晦仇恨数据集中，许多近邻样本之间差异极小，排斥它们会引入假负样本，损害泛化能力（Huynh 等，2020 (https://arxiv.org/html/2606.18852#bib.bib41)；Kalantidis 等，2020 (https://arxiv.org/html/2606.18852#bib.bib20)；Wang 等，2019 (https://arxiv.org/html/2606.18852#bib.bib50)）。Ahn 等（2024 (https://arxiv.org/html/2606.18852#bib.bib58)）提出 **SharedCon**，通过挖掘同标签实例间的共享语义来构建正样本，减少对隐含语句标注的依赖（Ahn 等，2024 (https://arxiv.org/html/2606.18852#bib.bib58)），但它仍继承了同样脆弱的负样本处理方式，因为许多实例在主题上相似。  

受负样本侧这一脆弱性的启发，我们转而针对**负样本选择**。通过对齐性和均匀性（Wang and Isola, 2020 (https://arxiv.org/html/2606.18852#bib.bib7)）的视角，SCL 风格训练在对齐正样本的同时排斥批次中所有其他实例作为负样本（Kim 等，2022 (https://arxiv.org/html/2606.18852#bib.bib1)；Ahn 等，2024 (https://arxiv.org/html/2606.18852#bib.bib58)），可能产生紧密的主题驱动聚类，但嵌入空间的全局覆盖较差，从而损害迁移能力。假负样本和类别冲突扭曲局部邻域（Chuang 等，2020 (https://arxiv.org/html/2606.18852#bib.bib44)）会放大这一效应。为了缓解单纯由共享主题和目标提及驱动的聚类，我们明确分离语义接近但标签对立的实例，使用带边界的**三元组目标**和**半难负样本挖掘**（Schroff 等，2015 (https://arxiv.org/html/2606.18852#bib.bib17)；Hermans 等，2017 (https://arxiv.org/html/2606.18852#bib.bib31)；Wu 等，2017 (https://arxiv.org/html/2606.18852#bib.bib18)；Musgrave 等，2020 (https://arxiv.org/html/2606.18852#bib.bib23)；Xuan 等，2020 (https://arxiv.org/html/2606.18852#bib.bib3)；Robinson 等，2021 (https://arxiv.org/html/2606.18852#bib.bib2)）。  

综上所述，我们做出以下贡献：  

*   我们提出一个用于隐晦仇恨检测的**三元组框架**，采用**上下文限制的半难负样本挖掘**，避免排斥批次中所有负样本，同时保留用于分类的标准交叉熵目标。  
*   我们引入两个变体：**ImpSH** 和 **AugSH**。ImpSH 在可用时使用帖子-隐含语句正样本，而 AugSH 对所有实例使用基于增强的正样本，以分离蕴含关系的作用。  
*   我们在 IHC、SBIC 和 DynaHate 数据集上，使用 BERT 和 HateBERT，在匹配的分词和调参预算下进行评估，并通过对齐性和均匀性分数分析表示结构，同时提供定性邻居和嵌入可视化。  

## 2 相关工作  

早期的仇恨言论检测依赖于词汇线索（Waseem and Hovy, 2016 (https://arxiv.org/html/2606.18852#bib.bib32)；Davidson 等，2017 (https://arxiv.org/html/2606.18852#bib.bib30)），但这些方法往往无法处理通过讽刺、委婉语和其他语用线索表达的隐晦仇恨（Badjatiya 等，2017 (https://arxiv.org/html/2606.18852#bib.bib33)；Golbeck 等，2017 (https://arxiv.org/html/2606.18852#bib.bib35)）。较新的基准如 IHC 和 SBIC，以及跨域评估设置如 DynaHate，将注意力转向语义建模，但稳健的跨数据集泛化仍然困难（Sap 等，2020 (https://arxiv.org/html/2606.18852#bib.bib25)；ElSherief 等，2021 (https://arxiv.org/html/2606.18852#bib.bib26)；Vidgen 等，2021 (https://arxiv.org/html/2606.18852#bib.bib24)；Kim 等，2022 (https://arxiv.org/html/2606.18852#bib.bib1)；Ramponi and Tonelli, 2022 (https://arxiv.org/html/2606.18852#bib.bib5)）。  

为提升泛化能力，近期工作将监督对比学习（SCL）应用于隐晦仇恨。Kim 等（2022 (https://arxiv.org/html/2606.18852#bib.bib1)）提出 **ImpCon**，使用人工标注的隐含语句作为正样本，拉近帖子-隐含对。Ahn 等（2024 (https://arxiv.org/html/2606.18852#bib.bib58)）提出 **SharedCon**，通过挖掘同标签实例间的共享语义（如聚类）构建正样本，摆脱对隐含语句的依赖。  

参考图说明  
图 2：三元组 vs. SCL。三元组更新使用违反边界的易混淆负样本；SCL 排斥批次中所有非正样本。  

### 2.1 三元组目标与负样本选择  

三元组损失通过将锚点拉向正样本并推离负样本（具有边际距离）来优化相对比较（Schroff 等，2015 (https://arxiv.org/html/2606.18852#bib.bib17)；Hermans 等，2017 (https://arxiv.org/html/2606.18852#bib.bib31)）。相比之下，SCL 将锚点拉向小批次中所有同标签样本，并推离不同标签样本（Khosla 等，2020 (https://arxiv.org/html/2606.18852#bib.bib11)；Gunel 等，2021 (https://arxiv.org/html/2606.18852#bib.bib27)；Liao, 2021 (https://arxiv.org/html/2606.18852#bib.bib52)）。在主题重叠严重的数据集中，将批次中多数样本视为负样

相似文章

使用多LLM代理模拟仇恨言论级联：经验基础、建模保真度与干预策略

arXiv cs.AI

本文研究了Bluesky上的仇恨言论级联，并使用多LLM代理进行模拟，发现此类模拟再现了立场单一文化和毒性增量方向等关键模式，且在密集网络上进行放大器定位可使仇恨内容减少7.5%–12.9%，且良性副作用较低。

懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

arXiv cs.CL

# 懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度来源：[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校洛杉矶加利福尼亚州美国 Rebecca Pattichis 独立研究员 Alb

对齐隐含语句以提升隐含仇恨言论跨数据集泛化性：基于上下文有界半硬负样本挖掘

相似文章

使用多LLM代理模拟仇恨言论级联：经验基础、建模保真度与干预策略

懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

InfoShield：基于信息论优化的隐私保护语音表示用于心理健康筛查

在心理防御分类中利用上下文感知的合成增强缓解数据稀缺问题

在仇恨言论与错误信息交汇处的辅助性反言论写作

提交意见反馈