懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

arXiv cs.CL 2026/04/21 04:00 论文

content-moderation hate-speech nlp bias reclaimed-language marginalized-communities ai-ethics

摘要

# 懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度来源：[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校洛杉矶加利福尼亚州美国 Rebecca Pattichis 独立研究员 Alb

arXiv:2604.16654v1 公告类型：新发布摘要：对于许多边缘化群体而言，在线使用“去污名化用语”（reclaimed slurs）是一种常见且具有重要意义的实践。它承载着群体间的凝聚力、身份认同与共同体验。然而，当前主流的自动化及基于AI的在线内容审核工具，大多难以区分脏话的“去污名化用法”与“仇恨言论用法”，从而导致边缘化群体的声音受到误判与压制。在本研究中，我们采用定量与定性相结合的方法，考察了LGBTQIA+、非裔及女性社群的社交媒体用户，针对聚焦于我们研究群体的去污名化脏话（涵盖F词、N词与B词）所持有的态度。通过与上述社群的用户协作，我们收集并构建了一个经过人工标注的在线脏话使用语料库。该语料库不仅记录了标注者对“含脏话的文本是否应被判定为仇恨言论”的主观看法，还包含了脏话使用的上下文特征。跨所有社群与标注问题，我们均观察到较低的标注者间一致性，这表明群体内部成员对此存在显著分歧。而这种分歧因以下事实进一步加剧：若缺乏明确的身份标识与意图语境信号，即便同属一个群体，成员们也可能对线上去污名化脏话的解读产生分歧。对标注者的半结构化访谈显示，生活阅历与个人历史背景的差异同样是导致这种意见分化的重要原因。研究发现，标注者的人工判断与Perspective API输出的自动化仇恨言论评分之间存在较大的不对齐现象。我们进一步观察到，文本的某些特征——例如脏话的使用是否具有冒犯性，以及脏话是否指向使用者自身——与标注者是否将其标记为仇恨言论具有更强的关联性。综上所述，本研究凸显了边缘化社群在线解读此类词汇时固有的主观性与强烈的语境依赖特征。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:03

# “你懂我懂（但AI不懂）”：自动化内容审核无法捕捉社群对 reclaim 化词汇的多元态度 Source: https://arxiv.org/html/2604.16654 
Christina Chance christinachance315@gmail\.com (https://arxiv.org/html/2604.16654v1/mailto:[email protected]) 0000\-0002\-8254\-0670 (https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校 洛杉矶 加利福尼亚州 美国
Rebecca Pattichis 独立研究者 阿尔伯克基 新墨西哥州 美国 https://arxiv.org/html/2604.16654v1/mailto:,
Arjun Subramonian 独立研究者 旧金山 加利福尼亚州 美国,
James He 加州大学洛杉矶分校 洛杉矶 加利福尼亚州 美国,
Shruti Narayanan 加州大学洛杉矶分校 洛杉矶 加利福尼亚州 美国,
Saadia Gabriel 加州大学洛杉矶分校 洛杉矶 加利福尼亚州 美国 以及
Kai\-Wei Chang kwchang@cs\.ucla\.edu (https://arxiv.org/html/2604.16654v1/mailto:[email protected]) 加州大学洛杉矶分校 加利福尼亚州 洛杉矶 美国 (\(2018\))

###### 摘要\.
reclaim 化污名语的使用在许多边缘化社群中是一种常见且具有深远意义的线上实践。它作为凝聚力、身份认同和共享经验的来源发挥着重要作用。然而，当前的自动化及基于AI的在线内容审核工具大多无法区分污名语的 reclaim 用法与仇恨言论用法，导致边缘化群体的声音被压制。在本研究中，我们采用定量与定性方法，考察 LGBTQIA+、黑人与女性社群用户对针对其所属群体的 reclaim 污名语（包括 f-word、n-word 和 b-word）的态度。我们与这些社群的社交媒体用户合作，收集并分析了一个标注好的在线污名语使用语料库。该语料库包含注释者对含污名语文本的判断（是否应标记为仇恨言论），以及污名语使用的语境特征（例如是否具有贬义、污名语的目标对象等）。跨所有社群及标注问题，我们观察到注释者间的一致性较低，这表明组内注释者之间存在显著分歧。此外，若缺乏明确的身份与意图语境信号，即使是组内成员也可能对如何解读线上的 reclaim 污名语用法产生分歧。对注释者的半结构化访谈表明，生活经历与个人历史的差异也加剧了这种变异性。我们发现，注释者的判断与 Perspective API 生成的自动化仇恨言论评估结果对齐度较差。我们还观察到，文本的某些特征（如污名语使用是否具有贬义，以及污名语是否指向使用者自身）与注释者是否将其报告为仇恨言论密切相关。这些发现共同凸显了边缘化社群在线上解读污名语时所具有的主观性与语境依赖性。它们挑战了“仅凭社群成员身份就足以确立可靠的内容审核黄金标准”这一假设。研究结果强调，必须采用语境敏感的方法来处理在线污名语使用问题，以避免过度审核并进一步边缘化线上社群。
reclamation, 自动化审核, 偏见 ††copyright:none††conference:; ;††copyright:acmlicensed††journalyear:2018††doi:XXXXXXX\.XXXXXXX††conference:Make sure to enter the correct conference title from your rights confirmation email; June 03–05, 2018; Woodstock, NY††isbn:978\-1\-4503\-XXXX\-X/2018/06††ccs:Computing methodologies Natural language processing††ccs:Social and professional topics Hate speech††ccs:Social and professional topics User characteristics††ccs:Human\-centered computing Social media

## 1\.引言
> 最终，涉及 N word 及其他有害语言的斗争会演变为极其个人的冲突，在我们各自内心展开并最终由个人裁决。独自面对思绪、冲动与情感时，我们可以自由权衡各方论点，在远离奥威尔式十字军喧嚣与狂热的环境中做出保护性的选择。对个人选择的尊重以及美国人对言论自由的推崇，使我们对 N word 的态度变得复杂起来。 — Jabari Asim \(2007\)(Asim,2007 (https://arxiv.org/html/2604.16654#bib.bib18), Chapter 15, p\. 229)

社交媒体平台是社群形成、文化表达与政治参与的核心场域\(Areet al\.,2025 (https://arxiv.org/html/2604.16654#bib.bib90); Florini,2014 (https://arxiv.org/html/2604.16654#bib.bib91); Guta and Karolak,2015 (https://arxiv.org/html/2604.16654#bib.bib92); Theochariset al\.,2023 (https://arxiv.org/html/2604.16654#bib.bib93); Schuster,2013 (https://arxiv.org/html/2604.16654#bib.bib94)\)。通过跨越时空促进互动，这些平台使用户能够围绕共同的身份、经验和价值观组织起来。然而，伴随这些便利功能而来的是，平台高度依赖自动化与社群驱动的内容审核机制来规范用户行为。对于边缘化社群而言，这些系统往往引入了另一种约束：过度监管与话语压制。现有研究已指出，审核系统不成比例地管控特定身份话题，强加殖民与西方规范，且无法捕捉边缘化社群的社会与文化细微差别\(Harriset al\.,2023 (https://arxiv.org/html/2604.16654#bib.bib50); Shahid and Vashistha,2023 (https://arxiv.org/html/2604.16654#bib.bib77)\)。这一失效的一个显著例子是对 reclaim 语言的处理方式。Reclaimed slurs（reclaim 化污名语）指历史上曾被用于压迫边缘群体，后被重新借用为身份标识、团结象征与共享经验载体的词汇\(Cepollaro and López de Sa,2022 (https://arxiv.org/html/2604.16654#bib.bib56); Popa\-Wyatt,2020 (https://arxiv.org/html/2604.16654#bib.bib72); Pavone,2024 (https://arxiv.org/html/2604.16654#bib.bib67)\)。尽管 reclaim 语言在社群内部扮演着重要的社会角色，但内容审核系统与仇恨言论检测模型却频繁将这些词汇标记为滥用内容，这反映了其在处理语境、意图及社群特定含义方面的局限。为此，其他研究尝试通过纳入更多与被针对社群身份相同的注释者来提升审核性能，基于“组内成员能提供更准确判断”的假设。然而，即便获得了更可靠的标签，模型在训练与测试阶段于毒性检测任务中仍难以有效区分污名语的不同用法\(Dornet al\.,2024 (https://arxiv.org/html/2604.16654#bib.bib38)\)。我们假设，这种失效源于一个更深层的预设：即认为边缘化社群在信念、经历及对 reclaim 语言的理解上具有内部同质性。在实践中，reclaim 化污名语的使用极为个人化，深受生活经历（包括家庭、文化与环境因素）塑造。虽然理解群体内的观点对识别伤害至关重要，但这并不能保证共识。在这些情境中，分歧并非异常，而是 reclaim 语言解读过程的核心特征。这一挑战因标注实践的局限性而雪上加霜。许多仇恨言论数据集缺乏足够的语境信息来捕捉说话者意图、受众或关系动态，而这些对于理解 reclaim 污名语都至关重要。因此，reclaim 语言在仇恨言论检测研究中占据着一个棘手且未被充分探索的空间，处于语言、身份、社群规范与审核治理的交叉点。

在本研究中，我们考察边缘化社群成员如何解读 reclaim 污名语使用，并决定是否将其举报为仇恨言论。我们聚焦 LGBTQIA+、黑人与女性社群，检视 f\-word、n\-word 和 b\-word 作为这些群体内 reclaim 语言的使用情况。我们从约 12,000 条含污名语的推文语料库（来源于 Twitter 及现有仇恨言论数据集）中，选取每种污名语 100 条文本进行标注。注释者对每段文本的特征进行标记，包括是否以 reclaim 方式使用污名语、污名语的目标对象、周围语境，以及该内容是否应被举报为仇恨言论。我们辅以半结构化访谈，探究个人与 reclaim 语言的经历如何影响他们对污名语及线上行为的解读。通过这种混合研究方法，我们审视关于社群内部同质性的预设，考察生活经历如何影响对 reclaim 污名语的解读，并分析不同 reclaim 术语背后规范的差异。我们的分析围绕以下研究问题展开：
1. RQ1\.同身份群体内部的分歧在多大程度上挑战了将身份视为标签决策可靠预测因子的先验研究？
2. RQ2\.什么特征最能预测某人认为内容应被标记为仇恨言论？
3. RQ3\.模型校准能否反映标记内容时的现实世界不确定性？
4. RQ4\.不同边缘化社群在解读 reclaim 污名语时涌现出哪些模式与差异？

结果表明，共享的身份群体并未带来更高的一致性可靠性。我们在每个社群的所有标注问题上均观察到了较低的 Krippendorff’s alpha 一致性系数（f\-word \(\alpha=0\.15\), n\-word \(\alpha=0\.06\), b\-word \(\alpha=0\.21\)\)。若推文作者为组内成员，将其标记为仇恨言论的一致性仅略高（组内 \(\alpha=0\.18\), 组外 \(\alpha=0\.15\)）\[RQ1\]。文本是否具有贬义以及目标对象是谁等特征会影响整体举报决策；而 reclaim 的类型及污名语使用的相关语境特征则会影响组内与组外作者身份的举报差异\[RQ2\]。当考察注释者是否会举报文本与 Perspective API 输出结果的对齐程度时，我们发现模型更倾向于假设作者是“组外”人群，其对组外作者身份的绝对总变异（ATV）平均值低于组内作者身份（b\-word 除外）\[RQ3\]。此外，在比较显著特征影响力与模型输出的对齐度时，我们发现每种污名语都展现出独特的解读模式，暗示着不同的社群态度。例如，在“讨论污名语”语境下使用该词会增加 n\-word 根据作者身份改变举报状态的可能性，而对于 f\-word，该特征反而降低了标签变更的可能性\[RQ4\]。这些结果表明，需要为涉及边缘化社群线上语言与行为的相关仇恨言论建立更具细微差别、受社群启发的灵活定义。

## 2\.文献综述
我们将本工作定位为透过社交媒体内容审核视角，乃至更广泛地透过自动化 NLP 系统无法语境化理解边缘化社群的视角，来讨论压迫问题。我们强调了通过将社群及其信仰和偏好同质化所引发的关切与危害。在仇恨言论检测这类主观且涉及个人层面的任务中，注释者之间的分歧在社群内部是预期之内的现象。我们在与现有工作及讨论的联系中为本论文提供理论支撑（详见附录 B 扩展文献综述 (https://arxiv.org/html/2604.16654#A2)\)。

**Reclaimed Slurs (reclaim 化污名语)**\.污名语是针对社会群体（如种族、族裔、国籍、宗教、性取向、性别、残障）的贬损性词汇。它们植根于美国历史中的压迫语境，曾被用来贬低社群并抬高使用者的社会地位。尽管在社会层面属禁忌词汇，但部分被针对的社群已将此类词汇 reclaim（重新赋予新意），用以彰显韧性、自豪感与团结。学界对 reclaim 提出了多种概念化理解，包括 casual 与 socio\-political 使用之分\(Bianchi,2014 (https://arxiv.org/html/2604.16654#bib.bib23)\)、个体与群体采纳层级\(Galinskyet al\.,2003 (https://arxiv.org/html/2604.16654#bib.bib44)\)，以及权力动态与自我污名化\(Popa\-Wyatt,2020 (https://arxiv.org/html/2604.16654#bib.bib72)\)。本研究采用 Jeshion \(2020 (https://arxiv.org/html/2604.16654#bib.bib57)\) 的多义模型，区分 insular reclaim（组内默契）与 pride reclaim（在群体归属中表达尊严与荣誉）。

**Automated Content Moderation Suppression (自动化内容审核压制)**\.自动化审核因对身份相关言论过度执行政策，不成比例地压制了边缘化用户的帖子。现有研究表明，在模糊或西方中心主义规范下，黑人、跨性别及性别酷儿用户面临不成比例的内容删除、影子禁令（shadow banning）及执法不一致问题\(Harriset al\.,2023 (https://arxiv.org/html/2604.16654#bib.bib50); Shahid and Vashistha,2023 (https://arxiv.org/html/2604.16654#bib.bib77); Haimsonet al\.,2021 (https://arxiv.org/html/2604.16654#bib.bib49)\)。模型与数据集也加剧了这些不平等，常将非贬义的 reclaim 语言标记为有害，同时忽略语境与生活经历\(Davidsonet al\.,2019 (https://arxiv.org/html/2604.16654#bib.bib32); Vidgenet al\.,2021 (https://arxiv.org/html/2604.16654#bib.bib79); Hartvigsenet al\.,2022 (https://arxiv.org/html/2604.16654#bib.bib51); Dornet al\.,2024 (https://arxiv.org/html/2604.16654#bib.bib38)\)。我们的工作建立在 Dornet al.\(2024 (https://arxiv.org/html/2604.16654#bib.bib38)\) 之上，扩展了标注方法论，以考察多社群中的显著语境、污名语使用及作者组别归属，突出审核决策如何与超越性别酷儿女性的身份相交叠。

**Reclaimed Language in NLP (NLP 中的 reclaim 语言)**\.尽管仇恨言论检测已被广泛研究，但 reclaim 语言仍处于研究空白地带。多数工作间接通过身份词偏差\(Attanasioet al\.,2022 (https://arxiv.org/html/2604.16654#bib.bib19); Dixonet al\.,2018 (https://arxiv.org/html/2604.16654#bib.bib2); Sapet al\.,2019 (https://arxiv.org/html/2604.16654#bib.bib75)\) 与关键词偏差研究\(Yin and Zubiaga,2022 (https://arxiv.org/html/2604.16654#bib.bib81); Cercas Curryet al\.,2024 (https://arxiv.org/html/2604.16654#bib.bib30)\) 触及此议题。直接探讨 reclaim 语言的研究寥寥无几。前期工作提出了贬义、reclaim 与反话语（counter\-speech）污名语的分类法，并记录了标注挑战与 Perspective API 偏差\(Kurreket al\.,2020 (https://arxiv.org/html/2604.16654#bib.bib59)\)。其他研究表明，仇恨言论模型不成比例地将组内 LGBTQIA+ reclaim 污名语标记为有害，推高了假阳性率\(Dornet al\.,2024 (https://arxiv.org/html/2604.16654#bib.bib38); Zsiskuet al\.,2024 (https://arxiv.org/html/2604.16654#bib.bib6)\)。虽然部分方法利用 homo\-transphobic 数据集微调模型以预测 reclaim 行为\(Draettaet al\.,2024 (https://arxiv.org/html/2604.16654#bib.bib39)\)，但它们仍将 reclaim 框架化为二元分类问题。总体而言，现有 NLP 工作主要将 reclaim 语言视为建模挑战，而非受语境与生活经历塑造的社会化实践。

**Annotator Disagreement (注释者分歧)**\.注释者身份（包括人口统计学特征、生活经历与信念）会显著影响毒性及仇恨言论检测等主观标注任务\(Sapet al\.,2022 (https://arxiv\.

相似文章

以英语为中心的AI正在合并不相关的社群并扭曲身份认同

Reddit r/artificial

文章批评了AI系统（尤其是Grokipedia和AI搜索）如何通过以英语为中心的转写和有偏见的训练数据，合并不相关的社群，从而延续错误。文章强调了通过简化英语表述和重复的错误信息抹去文化差异的系统性问题。

应对现实世界中不良内容检测的整体方法

OpenAI Blog

OpenAI 展示了一套全面的框架，通过精心设计分类体系、控制数据质量、构建主动学习流程以及采用防止过拟合的技术来构建鲁棒的内容审核系统。该方法能够检测包括性内容、仇恨言论、暴力和自伤在内的多个类别的不良内容，性能超越现有的现成模型。

全新改进的内容审核工具

OpenAI Blog

# 全新改进的内容审核工具来源: [https://openai.com/index/new-and-improved-content-moderation-tooling/](https://openai.com/index/new-and-improved-content-moderation-tooling/) 为了帮助开发者保护其应用免受潜在滥用，我们推出了更快、更准确的 [Moderation 端点（在新窗口中打开）](https://beta.openai.com/docs/api-reference/moderations)。该端点为 OpenAI API 开发者免费提供了 [基于 GPT 的](ht

默认极化：LLM 内容策展中的推荐偏差审计

arXiv cs.CL

本文对 OpenAI、Anthropic 和 Google 的基于 LLM 的内容策展推荐偏差进行了大规模审计，使用了来自 Twitter/X、Bluesky 和 Reddit 数据的 540,000 次模拟选择。研究发现 LLM 系统性地放大极化现象，在毒性处理方面表现出不同的权衡，并显示出显著的政治倾向偏差，倾向于左倾作者，尽管数据集中右倾作者占多数。

AI 垃圾内容正在扼杀在线社区

Hacker News Top

文章认为，在 GitHub 和博客等平台上泛滥的低质量 AI 生成内容（即“AI 垃圾内容”）正在降低在线技术社区的价值。