Ghost Annotator:通过共形预测探索内容审核中人类标签变化的框架

arXiv cs.CL 论文

摘要

Ghost Annotator框架结合了共形预测与协同过滤,对内容审核中的LLM行为与人类标签变化进行建模,揭示了大型模型中存在的结构性人口统计偏见。

arXiv:2606.02911v1 Announce Type: new \n 摘要:当前研究主要关注模型性能,而对不确定性估计的关注相对较少,尤其是在LLM被越来越多用于生成标注数据的场景中。我们提出了一种框架,将共形预测与协同过滤式标注者表示相结合,对LLM与人类标注者的关系进行建模,并分析一致与不一致的模式。利用非一致性分数,我们引入了Ghost Prediction度量和Ghost Annotator表示,以量化模型预测与所有可用人类标注相偏离的情况。我们计算余弦相似度度量,以探索不同社会人口学轴线上模型行为的差异。我们在四个内容审核数据集上评估了四个不同规模和家族的LLM。我们的发现表明,虽然所有模型的不确定性随着标注者的不一致性而增加,但较大的模型在分类与任何人类标注不一致的文本时往往更加自信。最后,Ghost Annotator框架揭示了一致且稳健的人口统计错位模式,表明可能存在根植于预训练语料库的结构性偏见。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:35

# Ghost Annotator:一种通过保形预测探索内容审核中人类标注差异的框架

来源:https://arxiv.org/html/2606.02911
Mirko Lai²,³, Alessandra Urbinati¹, Simona Frenda⁴,³, Fabiana Vernero⁵, Marco Antonio Stranisci⁵,³

¹东北大学生物与社会技术系统建模实验室,美国马萨诸塞州波士顿
²赫瑞瓦特大学,苏格兰爱丁堡
³aequa-tech,意大利都灵
⁴东皮埃蒙特大学,意大利韦尔切利
⁵都灵大学,意大利都灵
通讯:[email protected] (https://arxiv.org/html/2606.02911v1/mailto:[email protected])

###### 摘要

当前研究主要关注模型性能,而对不确定性估计的关注相对较少,尤其是在大语言模型(LLM)越来越多地用于生成标注数据的场景下。我们引入了一个框架,将保形预测与协同过滤风格的标注者表示相结合,以模拟LLM相对于人类标注者的行为,并分析一致与分歧的模式。通过使用非一致性分数(Non-Conformity Scores),我们引入了Ghost Prediction指标和Ghost Annotator表示,用以量化模型预测与所有可用人工标注产生分歧的情况。我们计算余弦相似度指标,以探索不同社会人口统计轴上模型行为的差异。我们在四个内容审核数据集上评估了四个不同规模和系列的LLM。我们的发现显示,虽然所有模型的不确定性随着标注者分歧的增加而增加,但较大的模型在分类与任何人工标注都不一致的文本时往往更自信。最后,Ghost Annotator框架揭示了一种一致且稳健的人口统计错位模式,表明可能存在源于预训练语料库的结构性偏差。

## 1 引言

人类标注差异(Human Label Variation, HLV)Plank (2022) (https://arxiv.org/html/2606.02911#bib.bib51) 最近作为一种研究范式出现,旨在增强语言技术和资源的公平性与包容性。在克服基于标签聚合的传统方法的过程中,HLV推动了向数据集和模型的转变,Uma等人 (2021) (https://arxiv.org/html/2606.02911#bib.bib82);Cabitza等人 (2023) (https://arxiv.org/html/2606.02911#bib.bib81) 旨在捕捉不同的视角,尤其是在高度主观的现象上,Frenda等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib21)。这种转变具有重要的理论和实践意义,因为有偏的技术可能导致对下游任务中特定群体的系统性伤害,例如自动内容审核,Kocoń等人 (2021a) (https://arxiv.org/html/2606.02911#bib.bib83);Sap等人 (2022b) (https://arxiv.org/html/2606.02911#bib.bib40);Anand等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib52)。

自然语言处理(NLP)社区从广泛的角度处理HLV:从开发包含标注者元数据的非聚合数据 (Sachdeva等人, 2022 (https://arxiv.org/html/2606.02911#bib.bib53); Mostafazadeh Davani等人, 2024b (https://arxiv.org/html/2606.02911#bib.bib37)),到建模和捕捉不同世界观的方法,Wich等人 (2021) (https://arxiv.org/html/2606.02911#bib.bib50);Van Der Meer等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib72) 以更好地代表少数群体,Vitsakis等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib68)。然而,仍然存在开放的挑战,最相关的是:i. HLV发现的泛化受到数据集与其标注方案之间不匹配的阻碍,Fortuna and Nunes (2018) (https://arxiv.org/html/2606.02911#bib.bib86);Vidgen and Derczynski (2020) (https://arxiv.org/html/2606.02911#bib.bib85);ii. 大部分现有研究集中在模型性能上,而对不确定性的关注相对较少,而随着大语言模型(LLM)越来越多地用于生成标注数据集,不确定性正变得至关重要,Tan等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib54)。

我们的工作通过提出Ghost Annotator来应对这些挑战,这是一种从保形预测分数推导出的LLM行为表示,用于分析与人类标注者的相似性。我们的方法建立在保形预测之上 (Chen等人, 2023 (https://arxiv.org/html/2606.02911#bib.bib46)),这是一种模型不确定性估计的方法论,用于对标注者群体进行画像,并识别模型与哪个标注者群体最相似。

通过设计Ghost Annotator,我们回答以下问题:

[RQ1] 模型的不确定性与非聚合语料库中表达的HLV之间是否存在关系?

[RQ2] 模型是否与特定类别的标注者保持一致?

我们的结果表明,较大的LLM在其预测中表现出更高的置信度,同时与较小模型相比,它们与人类标注的分歧更大。尽管存在这些差异,所有模型都表现出反映集体标注者行为的置信度模式:随着对给定消息的标注者之间分歧的增加,模型的不确定性相应增加,这与之前研究的发现一致,Schmeisser-Nieto等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib55);Anand等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib52)。最后,Ghost Annotator框架揭示了一种针对特定社会人口群体的持续且稳健的人口统计错位模式,表明预训练语料库中存在结构性偏见,这些偏见在不同规模和系列的模型中是共有的。¹¹我们的实验代码可在以下网址获取:https://anonymous.4open.science/r/ghost-annotator-825C/README.md

## 2 相关工作

标注者的个体特征影响文本感知。Mieleszczenko-Kowszewicz等人 (2023) (https://arxiv.org/html/2606.02911#bib.bib22) 研究了40名标注者在不同任务和文本中的心理和情感特征如何决定对文本的感知,并且这种感知随时间也会变化。人类的不稳定性和多样性总体上使得重现其标注变得困难。然而,为了降低标注时间和成本,使用预训练模型来创建数据集、模拟人类活动和评估模型输出的情况正在增加,Tan等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib54);Aher等人 (2023) (https://arxiv.org/html/2606.02911#bib.bib32);Li等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib34)。²²LLM-as-a-judge也用于可用的评估框架中,以评分LLM的偏见:https://deepeval.com/。这引发了评估其在替代人类方面的可靠性,Calderon等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib33);Gligorić等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib36),并保证其标注的一定程度的多样性。除了基于主动学习来优化标注预算的常见方法,Wang and Plank (2023) (https://arxiv.org/html/2606.02911#bib.bib56),还提出了通过示例和标注者的选择标准来考虑HLV的技术,Baumler等人 (2023) (https://arxiv.org/html/2606.02911#bib.bib57);van der Meer等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib58)。但是,Gruber等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib35) 认为这些技术没有考虑HLV与标注错误之间的区别,并且通常LLMs更受欢迎,因为它们可以自动提供标签分布。然而,在这种情况下,作为标注者的LLMs往往在英文数据集上表现更好,偏向于将文本标注为攻击性和侮辱性,产生的标签分布与人类意见分布不一致,Pavlovic and Poesio (2024a) (https://arxiv.org/html/2606.02911#bib.bib59),并且即使使用不同的人物角色进行提示,也难以产生像人类那样多样化的响应,Sarumi等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib78);Lan等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib19)。

在那些研究模型预测与不同人类响应之间相关性的学者中,Schmeisser-Nieto等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib55) 和 Anand等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib52) 展示了当标注者之间分歧较大时,模型如何表现出较低的置信度。分歧可能由不同因素引起,Sandri等人 (2023) (https://arxiv.org/html/2606.02911#bib.bib60);Wan等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib28);Frenda等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib21),尤其是在仇恨言论检测等任务中,信念、身份和人口统计数据与消息中感知到的毒性水平和攻击性语言相关,Sap等人 (2022a) (https://arxiv.org/html/2606.02911#bib.bib61);Mostafazadeh Davani等人 (2024a) (https://arxiv.org/html/2606.02911#bib.bib62)。如果数据集和模型未能捕捉到HLV,结果就是不公平的模型行为(例如,歧视少数群体、强化刻板印象或掩盖人口群体)。为了调查预训练模型中存在的偏见,各种学者探索了使用问卷、评估框架和词语联想测试,目的是揭示其政治或价值偏好以及道德态度,Wright等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib63);Jiang等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib29);Rao等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib64);Abramski等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib20);Dai等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib30)。所有这些研究都揭示了,不幸的是,LLMs并不适合全球受众。

受Urbinati等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib31) 工作的启发,我们使用保形预测来估计模型对人类标注的不确定性。我们工作的新颖之处在于提出了一个新的框架,该框架检查模型与HLV的相关性,并帮助将其表示(以Ghost Annotator的形式)定位在多样化的社会人口统计轴上。保形预测最近被引入NLP领域 (Chen等人, 2023 (https://arxiv.org/html/2606.02911#bib.bib46)),先前的研究利用其来触发自动仇恨内容审核中的版主审查,Villate-Castillo等人 (2025) (https://arxiv.org/html/2606.02911#bib.bib23),估计模型在文本生成中的不确定性 (Wang等人, 2025 (https://arxiv.org/html/2606.02911#bib.bib71))、机器翻译 (Zerva and Martins, 2024 (https://arxiv.org/html/2606.02911#bib.bib49)) 和文本分类 (Sheng等人, 2025 (https://arxiv.org/html/2606.02911#bib.bib73)),以及基于小型精心策划的校准集清理错误标注的数据,Zhan等人 (2023) (https://arxiv.org/html/2606.02911#bib.bib25)。通过我们的工作,我们提供了一个公平的框架,基于统计保证的技术,Campos等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib27),用于在创建和增强训练数据集时审慎地评估和使用预训练模型,确保多样化的标注。

## 3 实验设置

在本节中,我们介绍驱动我们研究的实验设置。在3.1节 (https://arxiv.org/html/2606.02911#S3.SS1) 中,我们介绍保形预测,它用于估计模型对人类标注的不确定性。在3.2节 (https://arxiv.org/html/2606.02911#S3.SS2) 中,我们描述Ghost Prediction,这是一种基于准确率的指标的替代方案,用于量化模型与非聚合人类标注者的差异。在3.3节 (https://arxiv.org/html/2606.02911#S3.SS3) 中,我们描述Ghost Annotator,这是一个受协同过滤启发并建立在保形预测和Ghost Prediction之上的框架,用于对模型和人类标注者进行画像。第3.4节 (https://arxiv.org/html/2606.02911#S3.SS4) 和3.5节 (https://arxiv.org/html/2606.02911#S3.SS5) 分别介绍我们实验中采用的数据集和模型。

### 3.1 保形预测

保形预测 (Angelopoulos等人, 2023 (https://arxiv.org/html/2606.02911#bib.bib43); Fontana等人, 2023 (https://arxiv.org/html/2606.02911#bib.bib44)) 是一个框架,用于通过将预测与从保留的校准集导出的非一致性分数关联起来,产生校准后的不确定性估计。从这个校准过程中,我们推导出一个非一致性分数(NCS)(附录A (https://arxiv.org/html/2606.02911#A1) 中公式4 (https://arxiv.org/html/2606.02911#A1.E4)),它量化了一个预测相对于校准分布的不寻常程度。保形预测的核心思想是,可以通过在有限的数据集(校准集)上计算模型的平均NCS来校准模型,然后使用这个分数来评估模型对未见数据的预测的不确定性。为了确保跨数据集和模型的可比性,NCS值在其各自的校准分布内按数据集进行归一化。我们在单个模型-标注者-实例交互的层面上计算非一致性分数(附录A (https://arxiv.org/html/2606.02911#A1) 中公式3 (https://arxiv.org/html/2606.02911#A1.E3))。这为每个标注示例生成一组NCS值,而不是一个单一聚合分数。由此产生的分数集合形成了一个经验分布,我们用它来表征标注者和模型。

在这项工作中,我们使用保形预测来推导不确定性分数,这些分数作为构建模型-标注者交互表示的基础,以便识别模型预测与人类标注之间的统计差异模式。具体来说,我们使用NCS作为模型预测与人类标注之间差异的度量,并承认它反映的是统计上的错位而非因果偏差。这种方法非常灵活,因为它可以通过部分聚合标注者来捕捉个人偏好或群体动态。

### 3.2 Ghost Prediction

通常,分类任务中的模型评估依赖于基于模型预测与通过聚合人类标签或它们的分布 (Leonardelli等人, 2025 (https://arxiv.org/html/2606.02911#bib.bib74)) 而获得的“真实标签”(ground truth)之间的比较的准确率性能。最近,提出了一些考虑HLV的评估方法。这些方法考虑将模型的预测与按相似画像分组的标注者标签进行比较,Akhtar等人 (2021) (https://arxiv.org/html/2606.02911#bib.bib38);Gordon等人 (2022) (https://arxiv.org/html/2606.02911#bib.bib76),以及与个体标注者标签进行比较,Mostafazadeh Davani等人 (2022) (https://arxiv.org/html/2606.02911#bib.bib65);Mokhberian等人 (2024) (https://arxiv.org/html/2606.02911#bib.bib66);Orlikowski等人 (2025) (https://arxiv.org/html/2606.02)

相似文章

利用详细的宪法定义与AI驱动评估提升标注一致性

arXiv cs.CL

本文提出了一种AI驱动的工作流,该工作流为内容审核类别编写详细的宪法定义,并使用前沿大语言模型对其进行解释,以实现更一致的标注。在骚扰、仇恨言论和非暴力犯罪三个类别上的评估表明,与段落式定义相比,该方法将跨模型不一致性降低了最多57倍。

通过可解释性理解标注员安全策略

arXiv cs.AI

本文介绍了苹果公司提出的标注员策略模型(APMs),该模型利用可解释性技术,无需额外标注努力即可从标注行为中推断标注员内部的安全策略。作者证明,APMs 能够准确地建模这些策略,并区分标注分歧的来源,例如操作失误、策略模糊性和价值观多元性。

注释者立场作为信号:针对反自闭症能力歧视检测的心理测量加权

arXiv cs.CL

本文介绍了一种基于偏见意识的评估框架,用于检测大语言模型中的反自闭症能力歧视语言,该框架使用基于注释者立场的心理测量加权真实值。研究发现,大语言模型经常将社区重新赋予的语言错误分类为能力歧视,并依赖表面关键词匹配而非上下文。

超越表面统计:通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。