面向基于多智能体模拟的社区注释评估

arXiv cs.AI 论文

摘要

本文介绍了 ComRate,一个来自 X 平台的大规模社区注释和评分数据集,并提出了 MultiCom,一种基于角色引导的多智能体框架,用于模拟社区注释评估。该方法在预测注释有用性方面达到了 84.7% 的准确率。

arXiv:2606.18268v1 Announce Type: cross 摘要:基于交叉共识的社区事实核查在社交媒体平台上迅速扩展。然而,由人类贡献者评分的交叉共识社区事实核查存在延迟和低比例的问题,这仍然是一个重大挑战。为了解决这一问题,我们首先创建了 ComRate,一个包含 250 万条社区注释和超过 2.09 亿条评分的大规模数据集,数据来源于 $\mathbb{X}$。然后我们提出了 MultiCom,一个基于角色引导的多智能体评分框架,用于社区注释评估。MultiCom 通过在矩阵分解的评分者空间中对贡献者进行聚类,并提示角色智能体根据官方社区注释评分模式生成结构化评估,从而模拟多样化的评分者群体。这些智能体输出结构化和可解释的判断,如置信度、一致性信号和原因。一种基于折外校准的聚合算法结合了原始投票和诊断原因信号等特征,以实现可靠的预测。大量评估表明,MultiCom 优于其他方法,在评估集上达到了 84.7% 的平均准确率(平衡准确率 68.3%,宏 F1 60.1%)。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:43

# 基于多智能体模拟的社区笔记评估
来源:https://arxiv.org/html/2606.18268
常溪文¹,张书宁¹\*,褚博豪²,褚雨薇³,王慧²,石岱⁴,易欣¹†,李贺武¹

¹清华大学,北京,中国 ²杜伊斯堡-埃森大学,杜伊斯堡,德国 ³卢森堡大学,卢森堡 ⁴同济大学,上海,中国

###### 摘要

基于交叉共识的社区事实核查正迅速在社交媒体平台上扩展。然而,依赖人类评分者的交叉共识社区事实核查存在延迟和低比率的问题,这仍然是一个重大挑战。为了解决这一问题,我们首先创建了ComRate,一个包含250万条社区笔记和超过2.09亿条评分的大规模数据集,这些数据来自X\mathbb{X}。然后,我们提出MultiCom,一个基于人物引导的多智能体评分框架,用于社区笔记评估。MultiCom通过在矩阵分解的评分者空间中对贡献者进行聚类,并提示人物智能体基于官方社区笔记评分模式生成结构化评估,来模拟多样化的评分者群体。这些智能体输出结构化且可解释的判断,例如置信度、一致信号和理由。一个经过校准的折叠外聚合算法结合了原始投票和诊断理由信号等特征,以实现可靠的预测。大量评估表明,MultiCom优于其他方法,在评估集上平均准确率达到84.7%(平衡准确率68.3%,宏F1分数60.1%)。

基于多智能体模拟的社区笔记评估

## 1 引言

应对错误信息和虚假信息仍然是社交平台的关键优先事项。虽然早期举措依赖专业事实核查员Micallefet al.\(2022 (https://arxiv.org/html/2606.18268#bib.bib17)\)或自动事实核查系统Guoet al.\(2022 (https://arxiv.org/html/2606.18268#bib.bib18)\),但这些方法通常面临高成本和有限的可扩展性。众包事实核查已成为一种可扩展的替代方案,它利用集体努力来撰写“社区笔记”——旨在揭穿误导性帖子的简短、基于证据的上下文信息Pröllochs \(2022 (https://arxiv.org/html/2606.18268#bib.bib8)\),并遏制错误信息的传播Chuaiet al.\(2024 (https://arxiv.org/html/2606.18268#bib.bib9),2026c (https://arxiv.org/html/2606.18268#bib.bib38)\)。此类项目已在X\mathbb{X}等平台上运行超过五年,从2021年初持续到2026年。

然而,揭穿性的社区笔记仍需人类评分者来确定其实际有用性Chuaiet al.\(2026b (https://arxiv.org/html/2606.18268#bib.bib10)\); Pröllochs \(2022 (https://arxiv.org/html/2606.18268#bib.bib8)\)。事实上,这并非众包事实核查系统独有。即使是专业事实核查员在进行核查工作时也会进行交叉检查。这些工作被证明能提高事实核查的全面性Warrenet al.\(2025 (https://arxiv.org/html/2606.18268#bib.bib3)\); Micallefet al.\(2022 (https://arxiv.org/html/2606.18268#bib.bib17)\)。在生成式AI时代,自动事实核查正被越来越多地提出和采用Nakovet al.\(2021 (https://arxiv.org/html/2606.18268#bib.bib5)\); Guoet al.\(2022 (https://arxiv.org/html/2606.18268#bib.bib18)\),如何评估生成的事实核查材料变得很重要,尤其是从用户中心的角度来看。

现有文献主要关注自动笔记生成Deet al.\(2025 (https://arxiv.org/html/2606.18268#bib.bib13)\); Zhanget al.\(2025 (https://arxiv.org/html/2606.18268#bib.bib14)\)、搭建笔记撰写工作流Xinget al.\(2026 (https://arxiv.org/html/2606.18268#bib.bib6)\),或通用自动事实核查架构Nakovet al.\(2021 (https://arxiv.org/html/2606.18268#bib.bib5)\); Guoet al.\(2022 (https://arxiv.org/html/2606.18268#bib.bib18)\)。至关重要的是,针对笔记评估的稀疏研究Xinget al.\(2026 (https://arxiv.org/html/2606.18268#bib.bib6)\)未能考虑复杂的评估动态,例如中间评分状态。

针对这些挑战,我们首先构建了ComRate,一个大规模真实世界数据集,包含对2,566,644条社区笔记的209,290,533条评分,涵盖2021年1月至2026年4月期间的1,698,835篇帖子。然后,我们提出MultiCom,一种基于人物引导的多智能体评分算法,用于揭穿性笔记的评估。MultiCom利用矩阵分解来聚集模拟异质性人类评分者人物的智能体。这些智能体在多个细微的质量维度(如证据强度和声明覆盖率)上执行可解释推理,而不是提供简单的二元标签。最后,一个选择性聚合智能体采用交叉验证和双阈值决策规则来优先考虑可靠结果,并解决“需要更多评分”的情况。

在ComRate上的大量评估表明,MultiCom优于其他方法。它还能泛化到未见过的未来笔记以及具有不同理由的笔记。我们的贡献有三点:

- •**方法**:我们引入MultiCom,一个多智能体框架,使用人物引导模拟和多维推理进行可解释的笔记评估。
- •**数据集**:我们提供了ComRate,最全面的社区笔记和人类评分的真实世界评分数据集。
- •**实证**:我们展示了MultiCom的有效性、跨时间和模型的泛化能力,以及提供诊断反馈以改进事实核查质量的能力。

## 2 ComRate

我们使用X\mathbb{X}API和平台官方开源仓库¹的数据构建了ComRate数据集。最终数据集包含对2,566,644条社区笔记的209,290,533条评分,这些笔记附属于1,698,835篇帖子。数据覆盖2021年1月28日至2026年4月5日的五年时间跨度。

为了深入了解事实核查生态系统,我们对数据集进行了分析(图1 (https://arxiv.org/html/2606.18268#S2.F1),详细方法见附录B.2 (https://arxiv.org/html/2606.18268#A2.SS2))。首先,时间分布凸显了该项目的快速采用和扩展,笔记、帖子和评分的数量在2024年达到显著峰值(图1 (https://arxiv.org/html/2606.18268#S2.F1)(a))。其次,图1 (https://arxiv.org/html/2606.18268#S2.F1)(b)展示了不同评分者集群中标准化行为特征的热力图,特征定义和z分数标准化详见附录B.2 (https://arxiv.org/html/2606.18268#A2.SS2)。这强调了建模多样化评估者人物的必要性,而不是假设一个统一的评分者群体。第三,我们检查了错误信息类别和笔记与帖子比率的分布(图1 (https://arxiv.org/html/2606.18268#S2.F1)(c))。我们发现“事实错误”和“操纵媒体”是最常见的类别,并且绝大多数帖子只附有一条笔记。

其他分析,包括语言分布和字符长度统计,详见附录B.3 (https://arxiv.org/html/2606.18268#A2.SS3)。由于官方社区笔记版本并未提供所有笔记的完整帖子文本,这些额外的全数据集统计是从笔记文本和官方笔记元数据中计算得出的。

我们的任务侧重于预测一条笔记是否有帮助。这与X\mathbb{X}上社区笔记项目的标准一致。我们将有帮助定义为:笔记是否提供了重要的上下文信息,帮助人们重新理解原始帖子。要使笔记有帮助,应满足X\mathbb{X}推荐的以下几个维度:来源良好(相关且高质量的引用)、清晰(易于理解的语言)、全面(涵盖所有关键声明)、相关(提供关键上下文)、中立(无争论性、猜测性或偏见的言辞)。

我们的评估将每条笔记分为三种状态之一,与X\mathbb{X}相同:有帮助(记为H)、无帮助(NH)、需要更多评分(NMR)。我们将H/NH记为已解决状态,并保留NMR,因为有些笔记存在争议,不能简单地归入二元类别。

(图片说明省略,保留原文结构)

图1:ComRate数据集的描述性分析。
## 3 MultiCom

### 3.1 算法流程

我们将流程设计为多智能体系统,强调多样性、诊断性判断和可靠的最终决策,如图2 (https://arxiv.org/html/2606.18268#S3.F2)所示。我们采用多智能体模拟结构进行评分,该结构从矩阵分解构造中构建基于集群的智能体,使得智能体在评分过程中反映异质性。对于每个智能体,我们要求它产生多维判断,而不仅仅是二元标签,因为有用性取决于多方面因素,如立场和证据质量。保留这些信息可以提高聚合效率并提供可解释的推理。最后,聚合模块利用集群级和智能体级特征来可靠地聚合结果。

(图片说明省略)

图2:MultiCom的算法流程。

### 3.2 基于评分者的人物模拟

为了分析和学习评分者的特征,我们首先使用有偏秩一矩阵分解来学习贡献者空间:

r_{ij} ≈ μ + α_i + β_j + u_i v_j   (1)

其中r_{ij}表示从贡献者i到笔记j的观察评分,μ是全局截距,α_i和β_j是贡献者和笔记特定的偏差,u_i和v_j是一维潜在因子。然后,我们在学习到的评分者空间中对贡献者进行聚类,以获得不同的行为组。对于每个聚类,我们总结其经验评分特征,包括聚类大小、平均历史有用性评分、倾向于评分为有帮助/无帮助的程度、一致倾向,以及当理由注释可用时的理由选择模式。然后将每个聚类转换为人物提示,指示相应智能体根据该聚类级别的评分行为来评估笔记。通过这种方式,智能体模拟了经验观察到的具有不同一致倾向、有用性先验、严格程度以及对笔记质量维度(如来源质量、声明覆盖率)敏感度的评分者群体。

### 3.3 多维智能体预测

每个智能体按照社区笔记项目的模式输出一个结构化判断。对于帖子-笔记对 (p, n),智能体a产出:

z_a(p,n) = (y_a, s_a, c_a, q_a, f_a, r_a),   (2)

其中y_a ∈ {helpful, somewhat helpful, not helpful}是智能体的整体有用性评分。立场向量s_a包含智能体的一致信号,包括“同意”和“不同意”。置信度信号c_a记录智能体对其判断的自信程度。质量向量q_a包含社区笔记评分中使用的有用性理由:Clear, GoodSources, AddressesClaim, ImportantContext, 和 UnbiasedLanguage。这些维度捕捉了笔记是否清晰、有充分支持、直接针对声明、提供重要上下文以及使用中立语言。失败向量f_a包含无帮助理由:Incorrect, SourcesMissingOrUnreliable, MissingKeyPoints, HardToUnderstand, ArgumentativeOrBiased, IrrelevantSources, OpinionSpeculation, 和 NoteNotNeeded。这些变量捕捉了社区笔记的常见失败模式。最后,r_a是一个辅助诊断信号,衡量笔记是否改变了读者对帖子的理解。

这些维度从社区笔记的评分过程中获得灵感。在社区笔记项目中,评分者通过预定义的理由类别解释为什么一条笔记有帮助或无帮助,包括笔记是否清晰、来源良好、不正确、不必要等。MultiCom采用这种结构,从模拟评分者中引出不同的理由级信号,并利用这些特征来增强聚合。这种设计保留了偏好细微差别,其中两条笔记可能获得相似的有帮助性投票,但其他特征如来源质量或声明覆盖率却不同。在我们的表示中,y_a和s_a捕捉了智能体的评分立场,c_a捕捉了置信度,q_a捕捉了正面质量证据,f_a捕捉了诊断性失败模式。

### 3.4 校准的多视图聚合

从不同的人物智能体获取JSON格式的结构化输出后,MultiCom将它们聚合成几个笔记级特征,包括原始投票分布、置信度统计、一致性信号、关于有帮助或无帮助理由的特征、集群级分歧模式,以及从元数据中导出的特征Liuet al.\(2023 (https://arxiv.org/html/2606.18268#bib.bib21)\); Hashemiet al.\(2024 (https://arxiv.org/html/2606.18268#bib.bib22)\); Yeet al.\(2023 (https://arxiv.org/html/2606.18268#bib.bib23)\)。特征视图和折叠外预测器的完整列表见附录D.1 (https://arxiv.org/html/2606.18268#A4.SS1)。这些特征使聚合器能够建模智能体如何投票以及为何这样投票。

然后,我们使用一种折叠外方法来处理所有学习到的聚合组件Wolpert \(1992 (https://arxiv.org/html/2606.18268#bib.bib24)\); Kaufmanet al.\(2012 (https://arxiv.org/html/2606.18268#bib.bib25)\)。具体来说,对于每条单独的笔记,最终聚合器使用的中间预测是由未使用该特定笔记进行训练的模型生成的。这避免了过拟合。

MultiCom最终集成了多个互补的折叠外预测器,包括加权集成预测Dietterich \(2000 (https://arxiv.org/html/2606.18268#bib.bib26)\); Caruanaet al.\(2004 (https://arxiv.org/html/2606.18268#bib.bib27)\)、门控集成预测、救援门预测Jacobset al.\(1991 (https://arxiv.org/html/2606.18268#bib.bib28)\)、理由混合预测和元数据预测。对于一条笔记n,每个预测器m产生一个标签ŷ_{m,n} ∈ {NH, NMR, H}。最终类别分数计算为:

S_c(n) = ∑_m w_m I(ŷ_{m,n} = c),   (3)

其中w_m是指派给预测器m的权重。最终预测为ŷ_n = arg max_c S_c(n)。

此外,在集成模型的初始预测为NMR的情况下,我们采用保守升级规则。具体来说,如果两个辅助折叠外预测器一致预测相同的已解决标签(即H或NH),并且投票级别的诊断统计满足预设阈值,我们将预测结果从NMR升级为该已解决标签。关于辅助预测器、其输入以及升级阈值的详细信息见附录D.1 (https://arxiv.org/html/2606.18268#A4.SS1)。

## 4 实验

### 4.1 方法

我们比较了代表直接有用性预测的方法。我们排除了其他多智能体

相似文章

TMAS:通过多智能体协同扩展测试时计算

Hugging Face Daily Papers

TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。

COMPOSITE-STEM

arXiv cs.CL

COMPOSITE-STEM 引入了一个包含70项专家策划的智能体任务的基准测试,涵盖物理、生物、化学和数学领域,旨在评估AI智能体在超越饱和基准测试的科学工作流中的表现。性能最佳的模型(Claude Opus 4.6)仅达到21.4%的准确率,表明科学推理能力存在显著差距。