PluRule：一个用于审核社交媒体上多元社区的基准

arXiv cs.CL 2026/05/19 04:00 论文

benchmark moderation social-media pluralistic-communities reddit ai-safety multilingual

摘要

PluRule 是一个新的多模态、多语言基准，用于评估 AI 模型在社交媒体上审核多元社区的能力，涵盖 1,989 个 Reddit 社区中的 13,371 条规则违规，涉及 9 种语言。结果表明，即使像 GPT-5.2 这样的最先进模型，其表现也仅略高于随机水平，表明上下文相关的规则执行仍是一个根本性挑战。

arXiv:2605.17187v1 公告类型：新摘要：社交媒体正朝着多元主义发展——即由社区自行定义规范的社区治理平台。在一个社区中违反规则的行为，在另一个社区中可能完全可接受。AI 模型能否帮助审核此类多元社区？我们将此任务形式化为一个多项选择问题，模拟人类版主在现实中的操作方式：给定一条评论及其上下文，识别是否违反了特定规则。我们引入了 PluRule，这是一个多模态、多语言的基准，用于检测 1,989 个 Reddit 社区中的 13,371 条规则违规，涵盖 9 种语言的 2,885 条规则。利用这一基准，我们发现最先进的视觉-语言模型面临显著困难：即使具有高推理能力的 GPT-5.2，其表现也仅略优于一个简单的基线。我们还发现，更大的模型和更多的上下文带来的收益有限，而诸如文明用语和自我推销等通用规则更容易被检测。我们的结果表明，社交媒体上多元社区的审核对语言模型而言是一个根本性挑战。我们的代码和基准已公开提供。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:38

# 审核社交媒体多元社区的基准测试
来源：https://arxiv.org/html/2605.17187
Zoher Kachwala¹、Bao Tran Truong¹,²、Rasika Muralidharan¹、Haewoon Kwak¹、Jisun An¹、Filippo Menczer¹  
¹美国印第安纳大学社交媒体观察站  
²德国德累斯顿工业大学系统协同中心

###### 摘要

社交媒体正转向多元主义——由社区治理的平台，其中各群体自行定义规范。在一个社区违反规则的内容，在另一个社区可能完全可接受。AI模型能否帮助审核这样的多元社区？我们将此任务形式化为一个多项选择问题，模拟真实世界中人类审核员的运作方式：给定一条评论及其上下文，识别是否违反了特定规则。我们引入**PluRule**，这是一个多模态、多语言的基准测试，用于检测跨越1,989个Reddit社区的13,371条规则违规，涵盖9种语言的2,885条规则。使用此基准测试，我们表明最先进的视觉-语言模型表现显著不足：即使具有高推理能力的GPT-5.2，其表现也只略优于一个基本基线。我们还发现，更大的模型和更多的上下文带来的提升微乎其微，而通用规则（如文明和自推广）更容易检测。我们的结果表明，社交媒体上多元社区的审核对语言模型来说是一个根本性挑战。我们的代码¹¹¹https://github.com/osome-iu/PluRule和基准测试²²²https://hf.co/datasets/osome-iu/PluRule已公开提供。

---

PluRule：审核社交媒体多元社区的基准测试

## 1 引言

输入提示
子版块信息：
子版块：r/santamonica：欢迎来到加利福尼亚州圣莫尼卡
与圣莫尼卡相关的任何内容，这里租金高但温度不高。
规则：
规则 1：仅限圣莫尼卡相关内容
请将帖子保持为圣莫尼卡特定问题。威尼斯和西洛杉矶问题可发布至 /r/LosAngeles
规则 2：尊重其他Reddit用户
尊重其他 r/SantaMonica 用户，无论是作为个人还是群体。如您与他人意见不合，请优雅地表达……（其他规则）...
规则 6：禁止仅因他人不同意而称其为付费水军。
仅因他人不同意而毫无证据地指控其为付费水军，可能导致封禁……（其他规则）...
帖子：
业主协会就酒店重建批准起诉市政府和Fairmont Miramar
用户1，2020年12月15日，下午1:37
[URL]
请参见标题
讨论：
评论 1：用户1，2020年12月15日，下午1:38
难怪这里什么都很贵……（其他评论）...
评论 4 [目标评论]：用户4，2020年12月21日，下午3:58
你肯定在为戴尔工作。他多年来通过逃避Fairmont Miramar的税款来欺诈圣莫尼卡。自己去查。他是个右翼混蛋
问题：[目标评论] 是否违反了规则？
(一) 仅限圣莫尼卡相关内容；(二) 未违反规则；(三) 尊重其他Reddit用户；(四) 申诉封禁；(五) 禁止仅因他人不同意而称其为付费水军；(六) 禁止低质量帖子；(七) 禁止针对他人的仇恨言论，包括针对无家可归者；(八) 禁止垃圾信息

模型响应
……（推理痕迹）...
最终答案：
(三) 尊重其他Reddit用户。✗

图 1：一个 PluRule 示例。GPT-5.2（高推理）接收目标评论的完整上下文，然后选择违反的规则。此处正确答案是（五），但GPT-5.2选择了（三）。全文见附录。确保平台安全并鼓励建设性参与是社交媒体治理中最持久的挑战之一gillespie2020content。在X（Twitter）twitter2025transparency、YouTube youtube2024和Meta meta2024transparency等集中式平台上，内容审核越来越多地由人类审核员和自动检测算法结合进行。这些系统通常聚焦于狭义的类别——如非法内容、不文明、仇恨言论和骚扰——这些被视为对所有用户和社区通用。通过优先考虑主流规范，它们忽视了少数群体使用的价值观、语言和表达形式，导致边缘群体的内容被移除率更高lingel2015face;jiang2020characterizing;griffin2024heteronormative;celeste2023platform。因此，集中式平台的规则未能涵盖不同社区间多样化的经验和语境含义DiazHechtFelella2021。

与此趋势相反，一些平台采用了社区治理结构，允许群体自行定义规范。例如，Reddit托管了数十万个基于话题的社区（子版块），每个社区除了平台范围的指导方针reddit_reddiquette外，还有自己的规则集。虽然这种多元结构赋予了社区权力，但也给志愿者审核员带来了沉重负担。仅在Reddit上，2020年这些无偿劳动的估计价值就超过了340万美元Liet al. (2022b (https://arxiv.org/html/2605.17187#bib.bib64))。不出所料，审核员通常渴望采用自动化工具来减轻负担CJR; Dosono and Semaan (2019 (https://arxiv.org/html/2605.17187#bib.bib19)); Hill (2019 (https://arxiv.org/html/2605.17187#bib.bib22)); Lloydet al. (2025 (https://arxiv.org/html/2605.17187#bib.bib20))。

然而，社区特定规则的情境性给自动化带来了根本性挑战。在一个社区违反规则的内容，在另一个社区可能完全可接受chandrasekharan2019crossmod; Liet al. (2022a (https://arxiv.org/html/2605.17187#bib.bib63))。例如，关于某人外貌的讽刺性侮辱在r/RoastMe中受到鼓励，但在大多数其他社区会违反文明规则。同样，在大多数子版块中属于垃圾信息的自推广，在创意展示社区中却是必需的。有效的审核需要理解不仅仅是规则文本，还有每个社区随时间发展的隐性规范、价值观和目的。

鉴于这些情境复杂性，问题在于现代AI系统能否有效协助多元审核。核心挑战在于语言模型是否能识别出相同内容在一个社区可接受，但在另一个社区可能违反规则。即使是类似的规则，也可能根据当地社区规范有不同的解释selbst2019fairness; birhane2021multimodal。

为了从实证角度研究这个问题，我们将规则违规检测形式化为一个多项选择任务，模拟人类审核员在实际操作中的方式（图1 (https://arxiv.org/html/2605.17187#S1.F1)）。我们引入**PluRule**，这是第一个用于审核社交媒体多元社区的多模态、多语言基准测试。该基准测试包含13,371个审核实例，涵盖72,675条评论和3,643张图片，跨越1,989个子版块，涉及9种语言的2,885条不同规则。PluRule在两个维度上具有显著多样性：25个语义派生的子版块类别（如政治、游戏、音乐）和27个规则类别（如文明、自推广、剧透）。

使用PluRule，我们评估了最先进的视觉-语言模型（VLM）在不同上下文条件下对规则违规的检测能力。我们的结果揭示了重大局限性：即使GPT-5.2具有高推理努力，准确率也仅为58%，仅略高于始终预测无违规的简单基线（50%）。提供额外上下文——讨论线程、原始帖子、参与者标签和图片——仅使GPT-5.2的性能提升2-3个百分点。开源模型如Qwen3-VL-Instruct和Qwen3-VL-Thinking表现更差，未能超过基线性能。按规则类别分解性能显示，模型成功检测到通用违规，如文明（69%）和自推广（63%），但在需要上下文理解的规则上失败；低质量（43%）、基于证据（47%）和相关性（44%）均低于基线。这些结果揭示了一个关键差距：当前VLM能执行通用规范，但无法适应定义多元审核的多样化、情境依赖标准。

## 2 相关工作

现有的内容审核数据集聚焦于狭隘的类别，如毒性言论Hoanget al. (2024 (https://arxiv.org/html/2605.17187#bib.bib30))、仇恨言论Nghiem and Daumé Iii (2024 (https://arxiv.org/html/2605.17187#bib.bib29))或厌女情绪Sheppardet al. (2024 (https://arxiv.org/html/2605.17187#bib.bib28))。在这些数据集上训练的自动化系统局限于在单一的全球适当性标准下检测广泛不可接受的内容。这一假设在去中心化平台上失效，因为不同人口群体在何为尊重、情感适当或毒性方面存在显著分歧sachdeva2022measuring; ali2025operationalizing。这些平台上的审核必须考虑多元性。例如，在Reddit上，规则超越了毒性Binnset al. (2017 (https://arxiv.org/html/2605.17187#bib.bib17)); Matias (2019 (https://arxiv.org/html/2605.17187#bib.bib9))，还包括围绕格式、语气以及意识形态或话题相关性的本地定义规范chandrasekharan2019hybrid。

即使是类似规范的执行，在不同社区之间也可能差异很大chandrasekharan2018internet。特别是在Reddit上，审核员通常根据当地社区价值观来解释规则和评估内容的适当性，而不是机械地执行固定政策Liet al. (2022a (https://arxiv.org/html/2605.17187#bib.bib63)); Fiesleret al. (2018 (https://arxiv.org/html/2605.17187#bib.bib16)); Matias (2019 (https://arxiv.org/html/2605.17187#bib.bib9))。因此，在一个社区内，当指导方针宽泛或依赖于上下文时，多名审核员可能出现分歧Binnset al. (2017 (https://arxiv.org/html/2605.17187#bib.bib17)); chandrasekharan2019crossmod。跨社区，相同的内容在一个上下文中可接受，但在另一个上下文中可能违反规范——这一区别在于从多个社区聚合数据训练的模型往往无法捕捉sap-etal-2022-annotators; Rajietal_aigap。

先前的工作尝试建模审核的社区依赖细微差别，但未涉及其实质的情境依赖性质。chandrasekharan2019hybrid识别了一小组跨社区反复出现的“宏观”规范。Parket al. (2021 (https://arxiv.org/html/2605.17187#bib.bib200))引入了一个纯文本数据集，将数千个社区特定规则压缩为粗粒度类型。这种方法将数千个单独的子版块规则抽象为有限数量的通用类别，模糊了定义每个社区的差异。Heet al. (2024 (https://arxiv.org/html/2605.17187#bib.bib31))为模型提供单个规则以进行二元是/否判断。

PluRule在三个关键维度上超越了先前的工作。首先，它明确建模了多元性：模型必须针对不同的、社区定义的规则进行推理，而不是应用一套固定的通用类别。其次，它将审核框架化为规则识别任务（多项选择），而非二元分类。这模拟了现实世界审核员的工作流程，并实现了更细粒度的评估。最后，PluRule是多语言和多模态的，捕捉了纯文本基准测试经常忽视的在线社区的视觉Gomezet al. (2020 (https://arxiv.org/html/2605.17187#bib.bib1))和语言Blodgettet al. (2016 (https://arxiv.org/html/2605.17187#bib.bib4))多样性。

## 3 PluRule 基准测试

PluRule将Reddit上多元社区审核的任务形式化为一个多项选择问题（图1 (https://arxiv.org/html/2605.17187#S1.F1)）。给定来自特定社区（子版块）的一条评论，模型必须识别是否违反了哪个具体规则。

对于每条评论，模型接收社区的规则以及审核员在决策时考虑的周围上下文。上下文包括：(1) 评论之前的讨论线程；(2) 评论回应的原始帖子，包括任何图片；以及(3) 讨论中参与者的匿名标识符。

PluRule中的每个**审核实例**由一个违规评论和一个合规评论组成，两者来自同一帖子且具有重叠上下文。模型分别评估两条评论。对于两条评论，模型都会看到答案选项，包括所有子版块规则加上一个“未违反规则”选项，标记为(a)、(b)、(c)等。每条评论的答案选项使用基于评论ID的种子进行确定性洗牌，以防止模型利用位置偏差。违规评论的正确回答是违反的规则；合规评论的正确回答是“未违反规则”。由于一半评论违反规则，一半不违反，始终预测“未违反规则”可得出50%准确率的多数基线。

## 4 PluRule 构建

Pushshift 档案
阶段 1
收集审核员评论与规则
阶段 2
将审核员评论与规则匹配
阶段 3
构建含图片的实例
阶段 4
验证和评估真实标签
阶段 5
数据划分与规则/子版块聚类
PluRule

图 2：PluRule 构建流水线

我们选择Reddit作为平台，因为审核操作是公开的：当一名人类审核员留下一条解释规则违规的评论时（例如，“你的评论违反了规则2”），就会发生一次审核操作。我们通过从Pushshift Reddit档案Baumgartneret al. (2020 (https://arxiv.org/html/2605.17187#bib.bib2))中此类审核员评论出发，并将其转换为具有验证规则标签、对比对和语义聚类的结构化基准实例来构建PluRule。下面描述此构建过程的五个阶段。

### 4.1 阶段 1：数据收集

我们从公开托管的Pushshift Reddit档案扩展版本Cohen and Lo (2014 (https://arxiv.org/html/2605.17187#bib.bib32))开始，该版本包含约150亿条评论，跨越4万个子版块。从这些档案中，我们提取审核员的评论，这些评论由评论对象中的“distinguished”字段标记。为了只关注评论（而非帖子）违规，我们排除对帖子提交的顶级回复。我们过滤掉用户名匹配与机器人相关关键词（例如“bot”、“automod”）的账户。这样得到约1000万条审核员评论，跨越4万个子版块。

然后，我们查询Reddit API以收集每个子版块的完整对象。这有助于检索其当前规则、推断其官方语言以及确定是否为NSFW（不适合工作场所）。每个子版块必须至少有一条审核员评论和至少两条明确规则。我们还排除包含成人内容（NSFW）的社区。在按这些标准过滤后，我们获得17,468个子版块，共有131,400条规则和约900万条审核员评论。

### 4.2 阶段 2：规则匹配

审核员经常在评论中引用规则（例如，“规则3 – 禁止人身攻击”）。尽管如此，将历史审核员评论与特定规则违规联系起来是一个关键挑战，因为规则随时间演变：新增规则、删除旧规则，以及现有规则的编号和措辞都可能变化。由于Reddit API只提供当前规则（截至2025年11月），我们将审核员评论的全文与当前规则的全文进行匹配。

我们使用Qwen3-Embedding-8B（一个多语言文本嵌入模型）来编码所有900万条

相似文章

懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

arXiv cs.CL

# 懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度来源：[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校洛杉矶加利福尼亚州美国 Rebecca Pattichis 独立研究员 Alb

评估大语言模型在社交媒体分析中的能力：多任务探索

arXiv cs.CL

犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试，引入新的采样方案与分类体系以减少偏差，打造可复现的评测基准。

非通用礼貌：使用PLUM语料库的跨语言多模型LLM礼貌效应研究

arXiv cs.CL

本文研究了用户提示中的礼貌和不礼貌表达如何影响LLM在三种语言和五个主流模型上的响应，发现礼貌效应是语言和模型相关的，而非通用的。作者发布了PLUM多语言语料库，包含1,500个人工验证的提示和礼貌标注，并使用八个因素评估响应质量。

使用新的多模态审核模型升级审核 API

OpenAI Blog

# 使用新的多模态审核模型升级审核 API 来源：[https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/](https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/) OpenAI 我们推出了一个基于 GPT-4o 构建的新模型，在检测有害文本和图像方面更加准确，使开发者能够构建更强大的审核系统。今天我们推出一个新的审核模型 `om

通过基于规则的奖励改进模型安全行为

OpenAI Blog

OpenAI 引入了基于规则的奖励(RBRs)方法，在强化学习中使用显式规则替代人类反馈来改进 AI 模型的安全性。RBRs 已被集成到 GPT-4 及后续模型中，以在保持安全性与实用性平衡的同时减少对人类反馈收集的依赖。

相似文章

懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

评估大语言模型在社交媒体分析中的能力：多任务探索

非通用礼貌：使用PLUM语料库的跨语言多模型LLM礼貌效应研究

使用新的多模态审核模型升级审核 API

通过基于规则的奖励改进模型安全行为

提交意见反馈