在辩论中辨别是非:中文有害迷因的归因分析
摘要
本文介绍了Ex-ToxiCN-MM——首个中文有害迷因解释数据集,以及知识库C-HarmKB和归因分析框架RIKE,通过考虑文化背景和语义模糊性,提升有害迷因的可解释检测能力。
arXiv:2605.24344v1 公告类型:新论文
摘要:有害迷因检测研究已引起广泛关注,并产生了大量数据集和方法。然而,中文有害迷因的检测进展明显滞后,主要面临两大挑战:首先,准确评估迷因的有害性高度依赖于对深层文化背景的理解;其次,许多迷因存在语义模糊性,使得有害性判断具有很强的主观性。为解决这些问题,我们聚焦于中文有害迷因的可解释检测,构建了首个中文有害迷因解释数据集Ex-ToxiCN-MM。该数据集为每个迷因提供“有害”和“无害”两种对立解释,旨在严格评估模型辨别和理解模糊、文化根基深厚内容的能力。我们构建了专门的中文文化概念和冒犯性词汇知识库(C-HarmKB),为模型提供必要的先验知识。针对迷因归因中的语义模糊性和背景知识缺失问题,我们开发了全面的归因分析框架RIKE,包含归因知识增强模块(AKE)和相对意图推理模块(RIR)。大量定量和定性实验表明,我们的方法在中文有害迷因归因任务的多项指标上优于主流基线模型。本研究所涉及的代码、Ex-ToxiCN-MM数据集和中文有害语义知识库(C-HarmKB)已在 https://github.com/wimiw123/Ex-ToxiCN-MM 开源。
查看缓存全文
缓存时间: 2026/05/26 09:02
# 在辩论中区分对错:中文有害迷因的归因分析 来源:https://arxiv.org/html/2605.24344 Weiming Wang, Junyu Lu, Han Wang, Xiaokun Zhang, Zewen Bai, Bo Xu, Liang Yang, and Hongfei Lin本研究受国家自然科学基金(No.625B2033、62576073、62376051)、辽宁省自然科学基金联合基金计划(2023-MSBA-003)以及中央高校基本科研业务费专项资金(DUT24LAB123、DUT24MS003)资助。Weiming Wang, Junyu Lu, Zewen Bai, Bo Xu, Liang Yang, and Hongfei Lin 任职于大连理工大学社会计算与认知智能重点实验室,中国大连(电子邮件:[email protected]; [email protected]; [email protected]; [email protected]; [email protected]; [email protected])。Han Wang 任职于新加坡科技设计大学(电子邮件:[email protected])。Xiaokun Zhang 任职于香港城市大学计算机科学系数据智能实验室(电子邮件:[email protected])。 ###### 摘要 有害迷因检测的研究已引起广泛关注,并催生了大量数据集和方法。然而,中文有害迷因检测的进展明显滞后,主要面临两大挑战:首先,准确评估迷因的危害性高度依赖于对深层文化背景的理解;其次,许多迷因在语义上存在歧义,使得危害性判断极具主观性。为解决这些问题,我们聚焦于中文有害迷因的可解释检测,构建了首个中文有害迷因解释数据集 Ex-ToxiCN-MM。该数据集为每个迷因提供了对立的两类解释(分别标注为“有害”和“无害”),旨在严格评估模型辨别和理解模糊、基于文化背景内容的能力。我们构建了一个专门的中文文化概念与冒犯性词汇知识库(C-HarmKB),为模型提供必要的先验知识。为应对迷因归因中的歧义性和背景知识缺失问题,我们开发了一个全面的归因分析框架 RIKE,其中包括归因知识增强模块(AKE)和相对意图推理模块(RIR)。大量的定量和定性实验表明,在中文有害迷因归因任务中,我们的方法在多个指标上均优于主流基线模型。本研究所涉及的代码、Ex-ToxiCN-MM 数据集以及中文有害语义知识库(C-HarmKB)已在 https://github.com/wimiw123/Ex-ToxiCN-MM 开源。 ###### 索引词: 数据集构建、知识库构建、有害迷因归因分析、中文迷因、情感计算。 ## I. 引言 近年来,互联网迷因作为一种独特的文化传播现象,在社交媒体平台上广泛传播。通过图像与文本的结合,这些迷因凭借其幽默性、讽刺性和高分享性,已成为用户表达观点和进行社交的重要媒介[32 (https://arxiv.org/html/2605.24344#bib.bib43),24 (https://arxiv.org/html/2605.24344#bib.bib44),38 (https://arxiv.org/html/2605.24344#bib.bib45)]。矛盾的是,它们的广泛流行也揭示了其“阴暗面”[19 (https://arxiv.org/html/2605.24344#bib.bib28)]:有害迷因的兴起。这些迷因常常利用微妙的视觉线索和双关语来传播仇恨言论、宣扬歧视性意识形态、散布错误信息,从而对数字生态系统和现实社会构成严重威胁[27 (https://arxiv.org/html/2605.24344#bib.bib41),3 (https://arxiv.org/html/2605.24344#bib.bib42),34 (https://arxiv.org/html/2605.24344#bib.bib46)]。这一挑战在中文互联网环境中尤为严峻,因为其独特的语言精妙之处和丰富的、依赖上下文的文化背景使得有害迷因的检测变得异常复杂。 参见标题图 1:中文有害迷因示例:(a) 利用可爱的“小狗”毛绒玩具传达嘲讽之意。(b) 描绘大学毕业后理想期待与严酷现实之间的差距。从情感计算的角度来看,迷因不仅仅是图像和文本的简单组合,更是社会情感和情绪表达的复杂载体[31 (https://arxiv.org/html/2605.24344#bib.bib63)]。与标准的多媒体内容不同,有害迷因经常利用语义不协调的机制——即用良性的或幽默的视觉风格来掩盖底层恶意的或仇恨的情绪[14 (https://arxiv.org/html/2605.24344#bib.bib64)]。这种不协调性给传统情感分析模型带来了巨大挑战,因为它们往往难以捕捉嵌入在跨模态交互中的微妙、高层次的负面情绪(例如,讽刺、嘲笑和隐晦的仇恨)。 近期在多模态情感识别方面的研究强调了模拟这些复杂情感动态的必要性。例如,[31 (https://arxiv.org/html/2605.24344#bib.bib63)] 强调,明确建模情感丰富的线索对于理解迷因内容至关重要。类似地,在中文社交媒体语境下,[14 (https://arxiv.org/html/2605.24344#bib.bib64)] 证明了对齐视觉和文本语义对于检测迷因中的有害情感内容至关重要。因此,我们认为有害迷因的检测应被框定为一项多模态情感理解任务,其中模型不仅要融合特征,还必须解读模态间隐含的情感对齐,以准确识别有害意图。 为应对有害迷因带来的挑战,研究界已采取多项举措。在数据集构建方面,研究者发布了用于有害迷因分类的高质量数据集,如 HarMeme[27 (https://arxiv.org/html/2605.24344#bib.bib41)] 和 MAMI[10 (https://arxiv.org/html/2605.24344#bib.bib24)],显著推动了多模态检测技术的发展。近期,也出现了少量迷因解释数据集,如 HatReD[15 (https://arxiv.org/html/2605.24344#bib.bib25)] 和 ExHVV[30 (https://arxiv.org/html/2605.24344#bib.bib26)],但它们在数据量和语言覆盖范围方面仍受局限。此外,也已出现初步努力构建中文有害迷因数据集,包括 ToxiCN-MM[23 (https://arxiv.org/html/2605.24344#bib.bib40)] 和 MemeMind[12 (https://arxiv.org/html/2605.24344#bib.bib27)],为该子领域奠定了基础。然而,这些现有资源通常面临规模小,以及未能充分解决中文语言语境下语义歧义性和可解释性问题的挑战。 然而,解读迷因的隐含含义要求模型不仅要处理多模态信息,还要具备深厚的中国文化知识[37 (https://arxiv.org/html/2605.24344#bib.bib47),19 (https://arxiv.org/html/2605.24344#bib.bib28),6 (https://arxiv.org/html/2605.24344#bib.bib48)]。考虑图1 (https://arxiv.org/html/2605.24344#S1.F1)(a),图中展示了一个标有“菜狗”标签的毛绒玩具。要理解这个迷因,必须认识到中文网络用语中“菜”意为“技术差”或“水平低”,而非“蔬菜”;而“狗”在此处用作自嘲后缀,并非侮辱。缺乏这种文化背景的用户将无法理解其隐喻。因此,模型必须首先配备此类中文语境概念的知识,才能准确辨别潜在危害。 此外,与英文语境相比,中文有害迷因的检测和解释仍然发展不足,这主要归因于中文语言固有的复杂性[4 (https://arxiv.org/html/2605.24344#bib.bib37)]。判断一个迷因是否“有害”具有高度主观性[25 (https://arxiv.org/html/2605.24344#bib.bib38),29 (https://arxiv.org/html/2605.24344#bib.bib39)],通常取决于观察者的文化背景、认知框架和个人价值观。这种主观性与迷因的多面性相结合,使得有害性的判断门槛变得模糊,从而使得危害性判断成为一个核心挑战。例如,图1 (https://arxiv.org/html/2605.24344#S1.F1)(b) 中的迷因描绘了大学毕业后青年们截然不同的志向。成为强大“暴鲤龙”的雄心与中文网络用语“咸鱼”(指无所作为的人)形成鲜明对比。评估这个迷因的有害性本质上是主观的:乐观的人可能认为它是无害的社会讽刺,而经历抑郁或挫折的人可能会觉得自己的失败得到了印证,从而认为它是有害的。 为了增进对迷因中潜在有害含义的理解,我们引入了一个条件生成任务框架。我们提出了 Ex-ToxiCN-MM 数据集,这是一个新颖的、包含解释性注释的中文迷因解释数据集。每个迷因都附带两种对立的解释:一种积极(良性)视角和一种消极(潜在有害)视角。这种设计支持后续针对大语言模型的任务,包括细微理解和解释增强。通过为迷因内容提供详细、合理的解释,该数据集填补了一个关键空白,并为未来中文迷因解释研究提供了宝贵的资源。 为解决中文有害迷因归因中的挑战,我们提出了归因分析框架 RIKE,该框架包含两个主要模型。为解决中文迷因解释中语境知识的缺失问题,我们通过构建归因知识增强模块(AKE)来适配和增强检索增强生成(RAG)策略[17 (https://arxiv.org/html/2605.24344#bib.bib49),36 (https://arxiv.org/html/2605.24344#bib.bib50),1 (https://arxiv.org/html/2605.24344#bib.bib51)]。该模块聚集了关于中文网络欺凌、歧视性语言、历史事件和社会文化背景的广泛背景信息。它为 LLM 提供了必要的先验知识,以理解迷因中的隐含含义和隐喻,使其能够生成更具洞察力的解释,并缓解中文语义稀缺带来的挑战。为应对有害迷因检测中固有的主观性问题,我们在 AKE 模块派生出的背景知识基础上,提出了相对意图推理模块(RIR)来分析迷因的底层语义。该方法利用 LLM 生成并选择有害和无害的解释,从而执行迷因分类(有害/无害),并迫使模型对模糊内容进行细粒度分析。我们的贡献总结为以下三点: 我们的贡献总结为以下三点: - •我们首次对中文迷因进行了全面、科学的正反两方面标注,提出了中文迷因解释数据集 Ex-ToxiCN-MM。 - •我们创新性地提出了相对意图推理框架,将大语言模型的对立立场分析方法应用于中文迷因分类和解释生成任务。 - •我们为有害迷因归因任务建立了一个动态知识增强框架,构建了首个中文有害语义知识库 C-HarmKB,有效提升了模型生成解释的质量。 ## II. 相关工作 ### II-A 仇恨迷因检测 近年来,网络上有害迷因的泛滥极大地推动了检测研究。例如,[27 (https://arxiv.org/html/2605.24344#bib.bib41)] 引入了包含大量 COVID-19 迷因的 HarMeme 数据集,而 Harm-C(COVID-19)和 Harm-P(美国政治)数据集则提出了多类别攻击任务。类似地,MAMI 数据集专注于厌女迷因,并带有攻击类型的详细注释[10 (https://arxiv.org/html/2605.24344#bib.bib24)]。与此同时,中文有害迷因的检测也日益受到关注。[23 (https://arxiv.org/html/2605.24344#bib.bib40)] 提出了 ToxiCN-MM,这是第一个系统性的中文有害迷因数据集,并附带了 MKE 基线检测器。虽然这些贡献提供了丰富的数据资源,但大多数仍局限于分类任务,可解释性有限。本研究采用的数据注释方案和相对意图推理框架为检测和解释有害迷因提供了一种新颖的方法。 现有研究越来越强调背景知识在检测有害迷因中的关键作用。例如,[18 (https://arxiv.org/html/2605.24344#bib.bib29)] 利用场景图来表示视觉对象及其关系,结合文本实体识别和来自 Wikidata 等源的背景知识,以增强分类性能和可解释性。类似地,[11 (https://arxiv.org/html/2605.24344#bib.bib30)] 将迷因中识别的实体与外部知识库集成,以丰富模型的上下文理解,从而提高准确性和可解释性。然而,这些进展主要局限于英文语境。识别中文迷因中复杂文化细微差别和检索相关知识的能力仍然不足[4 (https://arxiv.org/html/2605.24344#bib.bib37)]。本研究提出的动态知识增强框架正是为了填补这一空白。 ### II-B 大语言模型与迷因理解 大语言模型(LLM)展现了强大的推理能力,因此越来越多地被应用于有害迷因检测。例如,HMGUARD 框架采用由思维链(CoT)提示引导的视觉艺术分析,以增强模型对复杂迷因语义的解释[39 (https://arxiv.org/html/2605.24344#bib.bib33)]。类似地,U-CoT+ 将迷因分解为详细的文本描述,然后通过 CoT 进行高效的零样本推理[26 (https://arxiv.org/html/2605.24344#bib.bib34)]。其他研究则利用多模态大模型(MLLM),例如 LLaVA[21 (https://arxiv.org/html/2605.24344#bib.bib35)],它将视觉编码器的输出映射为 LLaMA 的输入,并在合成数据上训练对齐层与 LLM。最近的进展——包括稀疏样本模块化 LoRA 微调[16 (https://arxiv.org/html/2605.24344#bib.bib36)]、结合蒸馏技术的 LLM 溯因推理以及其他先进方法——进一步拓宽了 LLM 在该领域的应用范围。本研究的新颖方法将基于 LLM 的正反解释分析与检索增强生成技术相结合,是对有害迷因解释的一次创新尝试。它在多个基线模型上均表现出优越性能。 ## III. Ex-ToxiCN-MM 数据集 为探究中文有害迷因的底层逻辑和文化起源,我们引入了首个可解释的中文有害迷因数据集——可解释有毒中文多模态迷因(Ex-ToxiCN-MM)数据集。该数据集的标注过程和统计分析将在后续章节详细阐述。 ### III-A 解释性标注 对于每个迷因,我们采用一种双重对立解释标注方案。我们的核心创新
相似文章
CFMS:面向可解释细粒度中文多模态讽刺检测基准
北京大学研究人员提出了CFMS,这是首个细粒度中文多模态讽刺检测基准,包含2,796个图像-文本对和三级标注框架(讽刺识别、目标识别、解释生成),以及一种新颖的强化学习增强上下文学习方法(PGDS),该方法显著优于现有基线。
更难防御:面向中文的通过隐式增强与混淆重写实现的毒性攻击
本文提出了CITA框架,用于生成中文隐式毒性攻击,以评估和改进大语言模型的毒性检测器,在测试模型上实现了较高的攻击成功率。
谁与何?利用语言特征和标注者特征分析标注差异
本文对四个有害语言检测数据集进行了大规模分析,考察标注者特征与语言特征如何相互作用以影响标注差异。文章强调了交叉性效应的影响,并警示不要将不同数据集的发现简单泛化。
基于 MIPVU 框架的 Token 级中文隐喻识别多架构可复现基线
本文利用 MIPVU 框架和 PSU 中文隐喻语料库,建立了用于 Token 级中文隐喻识别的可复现多架构基线。研究比较了 RoBERTa 和 MelBERT 等编码器模型与 Qwen3.5-9B 生成式模型的性能,并开源代码和数据以推动后续研究。
当答案未出,安全先溃:评测推理链中的有害行为检测
研究者发布 HarmThoughts 基准,含 1,018 条推理轨迹、56,931 句细粒度标注,用于逐步评估有害行为如何在推理过程中浮现,并揭示现有检测器对微妙不安全推理转折的盲区。