注释者立场作为信号:针对反自闭症能力歧视检测的心理测量加权
摘要
本文介绍了一种基于偏见意识的评估框架,用于检测大语言模型中的反自闭症能力歧视语言,该框架使用基于注释者立场的心理测量加权真实值。研究发现,大语言模型经常将社区重新赋予的语言错误分类为能力歧视,并依赖表面关键词匹配而非上下文。
查看缓存全文
缓存时间: 2026/05/27 09:04
# 标注者立场作为信号:针对反自闭症能力歧视检测的心理测量加权 来源:https://arxiv.org/html/2605.26397 Naba Rizvi 加利福尼亚大学圣迭戈分校 nrizvi@ucsd\.edu & Harper Strickland 加利福尼亚大学圣迭戈分校 email@ucsd\.edu & Saleha Ahmedi 加利福尼亚大学圣迭戈分校 email@ucsd\.edu ###### 摘要 大型语言模型(LLMs)越来越多地用于决策任务,在这些任务中它们可能放大或压制某些观点,从而引发对影响自闭症群体的高风险场景的担忧。尽管先前研究已识别出LLMs中存在与残疾相关的偏见,但尚不清楚它们如何概念化能力歧视或在文本中检测它。我们引入了一个具有偏见意识的评估框架,针对反自闭症能力歧视语言,该框架基于标注者的立场,采用心理测量加权、贴近社区的黄金标准。这一框架构成了比传统多数投票聚合更严格的标准,后者显著且持续地低估了自闭症和接纳自闭症的观点。我们发现LLMs经常产生有害输出,错误地将社区重新定义的语言标记为歧视性,并且当评估工具被屏蔽时,它们对自闭症人士表达出更消极的态度。我们的错误分析表明,模型依赖表面层面的关键词匹配,而非语境因素,如说话者身份,以及语言是促进内部群体团结还是造成外部群体伤害。 标注者立场作为信号:针对反自闭症能力歧视检测的心理测量加权 Naba Rizvi 加利福尼亚大学圣迭戈分校 nrizvi@ucsd\.edu Harper Strickland 加利福尼亚大学圣迭戈分校 email@ucsd\.edu Saleha Ahmedi 加利福尼亚大学圣迭戈分校 email@ucsd\.edu Nedjma Ousidhoum 卡迪夫大学 email@cardiff\.ac\.uk 触发警告:本文包含歧视性语言,包括明确的辱骂词汇和暴力提及。 ## 1 引言 尽管LLMs在内容审核及其他可能压制或放大社区观点的决策流程中的使用日益增长,但先前研究表明,LLMs在简历筛选等下游应用中复制了社会偏见,包括与残疾和自闭症相关的偏见(Schramowski等人,2022(https://arxiv.org/html/2605.26397#bib.bib63);Glazko等人,2024(https://arxiv.org/html/2605.26397#bib.bib62))。然而,它们识别和推理能力歧视的能力仍未被充分探索。社会偏见如能力歧视塑造了个人和社区在文本中的呈现、描述和评价方式(Campbell,2009(https://arxiv.org/html/2605.26397#bib.bib75);Wolbring,2008(https://arxiv.org/html/2605.26397#bib.bib76))。与其他形式的社会偏见类似,歧视性语言范围从明确的辱骂到微妙的病理化框架,若缺乏社区背景知识,这些可能不被视为有害(Cepollaro等人,2026(https://arxiv.org/html/2605.26397#bib.bib84);Bottema-Beutel等人,2021(https://arxiv.org/html/2605.26397#bib.bib24);Kapp,2019(https://arxiv.org/html/2605.26397#bib.bib7))。这给人类标注者和LLMs都带来了挑战,可能导致意外的审查和错误分类(Fortuna和Nunes,2018(https://arxiv.org/html/2605.26397#bib.bib88);Waseem和Hovy,2016(https://arxiv.org/html/2605.26397#bib.bib89))。检测反自闭症歧视性言论尤其具有挑战性,因为它需要意识到:(1)针对自闭症人士的特定历史和持续的社会偏见,包括非人化和当代话语中持续的缺陷叙事(Kapp,2019(https://arxiv.org/html/2605.26397#bib.bib7);Rizvi等人,2024(https://arxiv.org/html/2605.26397#bib.bib4));以及(2)AI研究将自闭症框架为需要诊断、治愈或用作模型行为类比的问题(Cho等人,2023(https://arxiv.org/html/2605.26397#bib.bib68);Attanasio等人,2024(https://arxiv.org/html/2605.26397#bib.bib5);Ciobanu等人,2024(https://arxiv.org/html/2605.26397#bib.bib67);Jiang等人,2024(https://arxiv.org/html/2605.26397#bib.bib69))。此外,与自闭症相关语言的有害性在独特方式上依赖于语境:同一个术语(例如,“autie”、“aspie”)在局外人使用时可能具有歧视性,而在自闭症社区内部重新定义时则具有自我肯定作用(Osorio,2020(https://arxiv.org/html/2605.26397#bib.bib25);Cepollaro等人,2026(https://arxiv.org/html/2605.26397#bib.bib84))。这种内/外群体区分给人类标注者和自动化系统都带来了系统性错误分类风险,并对社区言论的意外审查产生后果(Waseem和Hovy,2016(https://arxiv.org/html/2605.26397#bib.bib89);Fortuna和Nunes,2018(https://arxiv.org/html/2605.26397#bib.bib88))。检测反自闭症歧视性言论需要:(1)一个黄金标准,提高社区近邻标注者(更高的自闭症特质分数,更低的内隐偏见)的权重,而非多数投票聚合;以及(2)对推理过程的分析,以理解模型是关注语境因素(说话者身份、社区归属、重新定义的语言)还是表面层面的线索。 心理测量信息化的标注使我们能够根据标注者的测量偏见水平和自闭症特质分数对标注标签进行加权,将标注者身份视为有意义的变量,而非需要平均化处理的噪声(Aroyo和Welty,2015(https://arxiv.org/html/2605.26397#bib.bib86);Uma等人,2021(https://arxiv.org/html/2605.26397#bib.bib87);Sap等人,2021(https://arxiv.org/html/2605.26397#bib.bib13);Davani等人,2022(https://arxiv.org/html/2605.26397#bib.bib54))。我们研究的推理差距有助于揭示LLMs是依赖表面层面的词汇线索来证明其分类合理性,还是像社区近邻的人类标注者那样关注语境因素,如发言者立场和可能的社区影响(Waseem和Hovy,2016(https://arxiv.org/html/2605.26397#bib.bib89);Rizvi等人,2025b(https://arxiv.org/html/2605.26397#bib.bib91),a(https://arxiv.org/html/2605.26397#bib.bib18))。为填补这一空白,我们提出了一个具有偏见意识的评估框架,用于检测反自闭症歧视性语言。我们的方法将心理测量加权的黄金标准(源自内隐和外显偏见测量以及自闭症评估工具(Dickter等人,2020(https://arxiv.org/html/2605.26397#bib.bib1);Flood等人,2013(https://arxiv.org/html/2605.26397#bib.bib36);Baron-Cohen等人,2001(https://arxiv.org/html/2605.26397#bib.bib37)))与LLM提示策略的受控评估(零样本、上下文学习、思维链和角色)相结合。我们探究三个问题: (RQ1:)心理测量信息化的标注权重如何影响人工-LLM一致性估计? (RQ2:)LLM和人类推理在检测反自闭症歧视内容时有何差异,以及提示能否缩小这一差距? (RQ3:)在心理测量评估中屏蔽自闭症相关线索如何影响LLM的自我评估? 我们引入了一个复合标注者可信度分数(R\_i),整合了IAT(Dickter等人,2020(https://arxiv.org/html/2605.26397#bib.bib1))、SATA(Flood等人,2013(https://arxiv.org/html/2605.26397#bib.bib36))和AQ(Baron-Cohen等人,2001(https://arxiv.org/html/2605.26397#bib.bib37))测量,证明多数投票聚合系统性地低估了自闭症和接纳自闭症的观点。针对这一更严格基线评估七种提示策略下的八个LLM显示,无论提示设计如何,表面形式的关键词匹配主导了推理失败。此外,我们的12模型心理测量评估显示,识别控制的工具揭示了标准自我报告所隐藏的潜在反自闭症偏见。这些贡献共同为有害语言检测中的社区为基础、偏见意识的评估提供了可复制的模板。 ## 2 相关工作 ### 2.1 大型语言模型中的偏见与能力歧视 LLMs继承并反映了其训练数据中存在的社会偏见,包括与残疾相关的偏见(Venkit等人,2025(https://arxiv.org/html/2605.26397#bib.bib2))。先前研究考察了LLMs如何采用一种倾向于支持主流群体而非边缘化群体的“默认角色”(Tan和Lee,2025(https://arxiv.org/html/2605.26397#bib.bib3))。这种角色通常与健全和神经典型规范一致,这可能导致歧视性内容的生成(Tan和Lee,2025(https://arxiv.org/html/2605.26397#bib.bib3))。尽管能力偏见在NLP研究中开始受到更多关注,但反自闭症能力歧视及其评估方法在很大程度上仍未被充分研究。一个例外是Autalic数据集,我们在本工作中使用它来研究语境中的反自闭症歧视性语言(Rizvi等人,2025b(https://arxiv.org/html/2605.26397#bib.bib91))。 ### 2.2 标注者分歧与立场 一些LLM基准忽略了社会人口学线索与问题解决行为之间的相互作用,而推动这些转变的内隐偏见只有通过考虑目标群体价值观和视角的评估方法才能显现(Yin和Huang,2025(https://arxiv.org/html/2605.26397#bib.bib14))。这对于歧视性言论尤为突出,因为人类标注者自身的身份和偏见会影响其判断,使得标注者立场成为一个需要测量而非控制消除的变量(Sap等人,2021(https://arxiv.org/html/2605.26397#bib.bib13);Rizvi等人,2025b(https://arxiv.org/html/2605.26397#bib.bib91))。先前关于标注分歧的工作已确立,将不同的标注者视角合并为多数投票会丢弃有意义的信号(Aroyo和Welty,2015(https://arxiv.org/html/2605.26397#bib.bib86);Uma等人,2021(https://arxiv.org/html/2605.26397#bib.bib87);Davani等人,2022(https://arxiv.org/html/2605.26397#bib.bib54))。将分歧视为信息性的方法,如软标签、每个标注者建模或按身份分层评估,能更好地捕捉有害语言判断的主观性(Davani等人,2022(https://arxiv.org/html/2605.26397#bib.bib54))。 上下文学习(ICL)允许LLMs仅通过几个示例学习任务(Dong等人,2024(https://arxiv.org/html/2605.26397#bib.bib83))。尽管ICL和角色提示是在敏感语境中引导LLM行为的常见技术,但分配的角色可能会使问题解决产生偏差,并且在看似中立的框架下,内隐偏见可能持续存在或出现(Yin和Huang,2025(https://arxiv.org/html/2605.26397#bib.bib14);Tan和Lee,2025(https://arxiv.org/html/2605.26397#bib.bib3);Hua等人,2025(https://arxiv.org/html/2605.26397#bib.bib6))。 ### 2.3 上下文敏感的有害语言检测 先前在辱骂性语言检测方面的工作表明,表面词汇特征不足以进行可靠分类,而语境因素如说话者身份、社区归属和语用框架对于准确标注是必要的(Hoeken等人,2024(https://arxiv.org/html/2605.26397#bib.bib78))。重新定义的语言,即在外群体使用时带有贬损意味、但在内群体使用中可能表示团结或自我认同的术语,会被分类系统性地错误标记(Suvarna等人,2025(https://arxiv.org/html/2605.26397#bib.bib79))。LLMs已被证明会在大规模上复制这些表面模式的失败(Gallegos等人,2023(https://arxiv.org/html/2605.26397#bib.bib80)),而社区为基础的评估挑战日益被认为是一个首要的方法论问题(Homayounirad等人,2025(https://arxiv.org/html/2605.26397#bib.bib81);Suvarna等人,2025(https://arxiv.org/html/2605.26397#bib.bib79))。我们的工作在更广泛的背景下定位反自闭症能力歧视,贡献了一个内/外群体区分尤为关键且研究不足的领域。 ## 3 方法 ### 3.1 人类心理测量评估 我们从Autalic数据集(Rizvi等人,2025b(https://arxiv.org/html/2605.26397#bib.bib91))中选择了由人类标注者标记为1(歧视性)或0(非歧视性)的2,120个句子。为了描述参与者与自闭症感知相关的态度和特质,我们使用了已建立的心理测量工具。标注者完成了社会态度对自闭症量表(SATA;Flood等人,2013(https://arxiv.org/html/2605.26397#bib.bib36))以测量对自闭症人士的外显接纳程度,以及自闭症谱系商数(AQ;Baron-Cohen等人,2001(https://arxiv.org/html/2605.26397#bib.bib37))以量化自闭症特质。两种工具均使用李克特量表响应,涵盖与自闭症相关的个性、行为和态度。此外,参与者完成了隐联测验(IAT;Dickter等人,2020(https://arxiv.org/html/2605.26397#bib.bib1)),该测验经过改编以测量对自闭症的内隐偏见。IAT是一项基于反应时间的分类任务,用于评估与自闭症相关的积极或消极内隐关联的强度。这些测试的示例见附录B.4(https://arxiv.org/html/2605.26397#A2.SS4)。 ### 3.2 使用心理测量对人工标注进行分割 我们从Autalic中筛选出一组283个句子,这些句子在组内标注者间具有完全一致的意见,且与2,120个分类目标分开。这些句子为ICL条件提供了示例。标注者根据心理测量分为四组:(1)自闭症(AQ ≥ 32,临床范围);(2)非自闭症(AQ < 26,低于临床阈值);(3)高信任度(R\_i > 0.69;综合信任度最高的三位标注者);以及(4)低信任度(R\_i < 0.66;综合信任度最低的三位标注者)。组1和组2的标签分别用于ICL-A和ICL-B的示例集,而组3和组4则塑造了下面描述的可信度加权方案。我们专注于心理测量极端值,以最大化与LLM输出的诊断对比。 然后我们对每个分数进行最小-最大标准化,并取平均值得到原始信任分R\_i = (1/3)(x̄\_AQ,i + x̄\_SATA,i + x̄\_IAT,i)。IAT分数被反转,以便较高值表示较低的内隐偏见,而SATA保持其原始方向,以便较高值表示更大的接纳程度。我们标注者池中的信任分数范围从R\_i = 0.610到R\_i = 0.819。然后我们将每个R\_i相对于其标注团队均值进行归一化,得到最终权重W\_i(范围[0.881, 1.168]),以确保每个团队内的平均权重恰好为1.0。每个实例的真实标签ŷ计算为标注者标签的加权平均值。完整推导见附录C(https://arxiv.org/html/2605.26397#A3)。 这种复合加权是受我们标注者池中的模式启发的。自闭症标注者(n=3)在内隐偏见方面显示出显著更大的离散度(IAT标准差=0.344)而非自闭症标注者(n=6,IAT标准差=0.120),而外显接纳分数在两组之间保持相对一致(SATA标准差=0.024 vs. 0.038)。鉴于标注者池规模较小,我们将其视为样本内的描述性观察,但其方法论含义是具体的。
相似文章
默认极化:LLM 内容策展中的推荐偏差审计
本文对 OpenAI、Anthropic 和 Google 的基于 LLM 的内容策展推荐偏差进行了大规模审计,使用了来自 Twitter/X、Bluesky 和 Reddit 数据的 540,000 次模拟选择。研究发现 LLM 系统性地放大极化现象,在毒性处理方面表现出不同的权衡,并显示出显著的政治倾向偏差,倾向于左倾作者,尽管数据集中右倾作者占多数。
谁与何?利用语言特征和标注者特征分析标注差异
本文对四个有害语言检测数据集进行了大规模分析,考察标注者特征与语言特征如何相互作用以影响标注差异。文章强调了交叉性效应的影响,并警示不要将不同数据集的发现简单泛化。
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
大语言模型中词汇对齐与偏好阶段转变的全自动识别
本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。
Ghost Annotator:通过共形预测探索内容审核中人类标签变化的框架
Ghost Annotator框架结合了共形预测与协同过滤,对内容审核中的LLM行为与人类标签变化进行建模,揭示了大型模型中存在的结构性人口统计偏见。