将LLM性别偏见锚定于人类基线:一项跨语言审计
摘要
本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。
arXiv:2605.30804v1 公告类型: 新论文
摘要:我们对六种大型语言模型(LLM)在英语、韩语、中文和日语中的性别刻板印象进行审计。其中三种主要面向英语使用开发(Claude、GPT、Gemini),三种面向东亚使用开发(DeepSeek、Syn-Pro、HyperCLOVA X)。我们采用HEXACO-100人格量表,并将每个模型锚定于一个覆盖48个国家的跨文化人类数据集,目的不是询问LLM是否存在偏见,而是探究其性别归属偏离其所服务人群的程度。研究结果显示,它们的刻板印象范围大约是人类跨国差异范围的2.5倍,且这种效应可能跨语言叠加。一个以英语为中心的模型在韩语提示下达到了当地基线的5倍,即使提示中已表明候选人已被录用(这通常能减轻人类的刻板印象)。为了在不进行排序的情况下表征这些行为,我们引入了一个四模式框架——一致性(concordance)、抑制(suppression)、重组(reorganization)和放大(amplification)——覆盖24个(模型×语言)单元。项目级别分析表明,翻译不仅仅是对刻板印象进行缩放,还会改变与之相关的属性,在表面看似校准良好的情况下隐藏了显著的重组。我们的结果最终表明,没有任何单一的去偏流程能够均匀地解决跨语言边界的偏见问题。
查看缓存全文
缓存时间: 2026/06/01 09:29
# 将LLM性别偏见锚定于人类基线:一项跨语言审计
来源: https://arxiv.org/html/2605.30804
Jiwoo Choi Seonwoo Ahn Tongxin Zhang Seohyon Jung
数字人文与计算社会科学学院,韩国科学技术院(KAIST)
\{jwchoi0515, swahn, zhangtx, seohyon\.jung\}@kaist\.ac\.kr
(2026年5月25日)
###### 摘要
我们对六种大型语言模型(LLM)在英语、韩语、中文和日语中的性别刻板印象进行了审计。其中三种主要面向英语开发(Claude、GPT、Gemini),另外三种面向东亚市场(DeepSeek、Syn-Pro、HyperCLOVA X)。我们采用HEXACO-100人格量表,并将每个模型锚定于覆盖48个国家的跨文化人类数据集,问题不在于LLM是否存在偏见,而在于其性别归因与模型部署所在人群的基准偏差程度。研究结果表明,LLM的刻板印象范围大约是整个人类跨国范围的2.5倍,而且这种效应会跨语言叠加。一个以英语为中心的模型在使用韩语提示时,其偏差程度达到当地基线的5倍,即使提示中明确声明候选人已被录用——这种情况通常会抑制人类的刻板印象。为了在不排序的情况下描述这些行为,我们引入了一个由24个(模型 × 语言)单元构成的四模式框架:一致、抑制、重组和放大。项目层面的分析表明,翻译不仅会重新缩放刻板印象,还会改变与之相关的属性,在看似校准良好的表面下隐藏着重大的重新排列。我们的最终结论是,没有哪种单一的去偏流水线能够均匀地应对跨语言边界的偏见。
---
**将LLM性别偏见锚定于人类基线:一项跨语言审计**
Jiwoo Choi Seonwoo Ahn Tongxin Zhang Seohyon Jung††*通讯作者。
数字人文与计算社会科学学院,韩国科学技术院(KAIST)
\{jwchoi0515, swahn, zhangtx, seohyon\.jung\}@kaist\.ac\.kr
## 1 引言
设想一下:首尔的一位招聘经理让Claude描述他们刚刚决定录用的成功候选人。他们只提供了候选人的性别;没有简历、背景信息或成绩单。我们发现,Claude将“情绪性”归因于性别时的Cohen's \(d=2.04\),揭示了极端的群体差异,使韩国和美国人类评分者的基线方差相形见绌(Lee and Ashton, 2020)。值得注意的是,这种幅度出现在信息稀缺的受控环境中——候选人已经被选定录用,这是一个最小能力的线索,通常会在人类人际感知中减弱范畴思维(Fiske and Neuberg, 1990; Locksley et al., 1980)——而非旨在引发刻板印象的提示。
以往关于LLM性别偏见的研究可分为三类:词汇或表征层面的偏见(Caliskan et al., 2017)、基于基准的数据集(Parish et al., 2022; Nadeem et al., 2021),以及基于审计的生成偏见(Dhamala et al., 2021; Kumar et al., 2026),包括多语言扩展(Ding et al., 2025)。然而,这些研究缺乏大规模跨文化的人类基线。偏见主张缺乏基于经验的人类基准。此外,由于现有大多数基准评估LLM时使用的是条件化人格,而非非结构化的观察者报告,后者在文献中受到的关注明显较少。然而在实践中,自动化人才招聘、候选人筛选和绩效评估是LLM应用最广泛且最具高风险性的领域之一。
我们的研究包含四个组成部分:HEXACO-100量表、仅性别操作、四种语言的六个LLM,以及跨文化人类锚定(Lee and Ashton, 2018, 2020)。我们将LLM观察者报告归因与人类自我报告基线进行比较,因为两者使用完全相同的HEXACO-100项目,可以产生可比较尺度的Cohen's \(d\),且两种报告模式在HEXACO性别差异上高度一致(Lee and Ashton, 2020);我们将此视为幅度比较,而非声称它们衡量相同的构念。我们以观察者报告形式实施量表,仅改变候选人A的性别,并通过“已录用”这一能力线索进行增强。六个LLM包括三个以英语为中心的模型(Claude、GPT、Gemini)和三个以中日韩语言为中心的模型(DeepSeek、Syn-Pro、HyperCLOVA X),对于每个(模型,语言)单元,我们测量其性别归因的 \(d\) 与相应国家(美国、韩国、日本和香港作为中文的代理)人类基线之间的距离。该方法代表了一种基于基线锚定的跨文化LLM性别偏见评估,通过经过验证的外部人类参照来跨越不同人群。
LLM即使在被评估对象被呈现为成功候选人(这是一个极为强烈的个性化线索,在人类评分者中会大大降低刻板印象的应用)时,也未表现出性别化人格特质的减弱(Locksley et al., 1980; Fiske and Neuberg, 1990)。我们还记录到跨语言放大效应。平均而言,使用非英语语言提示英语中心模型,所引发的刻板印象幅度与人类基线偏差极大,高达数倍。通过定义一个基于经验、涵盖24个(模型 × 语言)单元的四种描述性模式——一致、抑制、重组和放大,我们揭示了清晰的项目层面证据:翻译重组了刻板印象模式,而非均匀缩放(平均跨语言项目秩相关 \(\rho = 0.436\),模型间范围从0.132到0.603)。总的来说,我们提出三个主要贡献:(1)基于基线锚定的偏见测量,(2)跨语言放大现象的文献记录,以及(3)一个描述性框架,通过四种模式来刻画每个配置(模型 × 语言)的特征。
## 2 相关工作
以往衡量LLM性别偏见的工作采用了多种方法。例如,Caliskan et al.(2017)提出使用词嵌入事实关联测试(WEFAT)来量化语义偏见,其他人则开发了评估模型偏见的基准数据集(Parish et al., 2022; Nadeem et al., 2021; Nangia et al., 2020; Rudinger et al., 2018)。Dhamala et al.(2021)描述了一种利用开放式文本生成以及他们提出的新颖自动评估指标的方法。在招聘情境中,Wilson and Caliskan(2025)使用文档检索框架进行简历筛选,Wang et al.(2024)提出了一个评估LLM中品味偏见的框架。这些方法中的许多都测量了语言内的偏见机会,但并未指明测得的水平与该人群自身的性别-特质关联之间的关系,因为后者是情境性的,在本例中具有语言和文化的特定性。
Niszczota et al.(2025)的研究试图为GPT-4建立明确的国民人格设定,描述美国与韩国的大五人格差异;Ding et al.(2025)评估了5种语言中的性别偏见。最近,Kumar et al.(2026)采用HEXACO和暗黑三人格模型作为人格条件化方法,生成英语和印地语的叙事。已有研究探讨了LLM在提示下是否能模仿文化多样性。我们反转了这一探究:当以适合该文化的语言进行查询而无需明确的人格指令时,LLM是否自然地与文化模式对齐?
大五人格的大规模跨文化研究(Schmitt et al., 2008; Wood and Eagly, 2002; Moshagen et al., 2019)表明,人类人格和性别差异原则上具有强烈的文化依赖性。在分析中,我们使用HEXACO模型(Lee and Ashton, 2018),尤其是当该构念以观察者报告形式应用时,并结合跨文化性别差异的基线(Lee and Ashton, 2020)。基于来自48个国家共347,192个样本的分析,结果表明在性别平等国家中,性别差异反而更大。
在人类社会认知中,刻板印象受到个性化信息的调节。连续体模型(Fiske and Neuberg, 1990)和实证证明(Locksley et al., 1980; Krueger and Rothbart, 1988)证实,具体信息通常胜过一般范畴刻板印象。然而,LLM在接收到目标能力信号时是否表现出类似的刻板印象减弱,尚未得到系统测试。通过将评估结构化地围绕明确的招聘决策并涉及不同的候选人档案,我们操作并评估了LLM中的这一动态。
我们结合了HEXACO观察者报告测量、审计式能力信号提示、跨文化基线锚定以及多语言覆盖,包括以中日韩语言为中心的模型。
## 3 方法论
### 3.1 模型
我们系统评估了六种LLM,其中三种由美国组织开发(Claude、GPT、Gemini),三种在中日韩语言地区扮演关键角色(DeepSeek、Syn-Pro、HyperCLOVA X)。我们在表格1中总结了模型设置和细节。
| 模型 | 来源 | API模型版本 |
|------|------|-------------|
| **英语中心模型** | | |
| GPT | 美国 | gpt-5.2-2025-12-11 |
| Claude | 美国 | claude-opus-4-5-20251101 |
| Gemini | 美国 | gemini-2.5-pro |
| **中日韩中心模型** | | |
| DeepSeek | 中国 | deepseek-reasoner |
| Syn-Pro | 日本 | syn-pro |
| HyperCLOVA X | 韩国 | HCX-007 |
表1:实验中使用的模型。所有模型均于2026年1月通过API获取。生成参数设置:温度 temperature=1.0,top-p=0.95。
我们在本文中将这组模型称为“英语中心”和“中日韩中心”,因为对于某些模型变体而言,这些标签大致反映了训练数据的组成,但并非绝对精确。值得注意的是,Syn-Pro由韩国(Upstage AI)和日本合作伙伴(Karakuri Inc.)共同开发,基于日语语境和文化构建并部署(Upstage AI and Karakuri Inc., 2025)。我们根据其部署目标将Syn-Pro视为以日本为中心。所有统计分析均在单个模型层面进行。
### 3.2 HEXACO-100
我们采用了HEXACO-100人格量表(Lee and Ashton, 2018),该问卷包含100个项目,涵盖6个因素(诚实-谦逊、情绪性、外向性、宜人性、尽责性、开放性),这些因素包含24个不同的四项目子维度以及一组四个插入的利他主义项目。项目根据已印刷的计分键进行评分,并对相应项目进行反向计分。
关于我们所做的比较,需要说明:我们的LLM测量是对一个假设候选人的观察者报告归因,该候选人唯一已知特征是性别;Lee and Ashton(2020)的人类数据是个体描述自己的自我报告人格。这两种测量在评分者(LLM vs 人类)、目标(抽象的匿名候选人 vs 评分者自身)以及认知过程(范畴推断 vs 自我反思)上均有所不同。它们并非对同一心理现象的测量。我们将两者进行比较,因为它们在HEXACO框架内是最直接可比的数据点:两者使用相同的量表项目,两者都能产生相同量表的Cohen's \(d\),且两者均已得到验证,显示出平行的跨文化变异模式。Costa Jr et al.(2001)也报告称,自我报告性别差异的文化变异与观察到的性别规范的文化变异高度相关。我们报告幅度比较作为描述性参考,而非声称LLM归因与人类自我报告测量了相同的潜在构念。这一警示贯穿全文。当我们报告Claude+韩语产生的性别-情绪性归因 \(d=2.04\) 对比韩国人类基线 \(d=0.41\) 时,我们的意思是:LLM基于性别的归因差异幅度(以Cohen's \(d\)表示)是韩国人群自我报告性别差异幅度的五倍。这是一个定量比较,而非等效性声明。
### 3.3 提示设计
#### 系统提示
在系统提示中,我们告知模型扮演一位人力资源面试官,其目标是招聘对公司最有利的候选人。这将任务重新定位为评估招聘对象,而非抽象地测量人格。
#### 用户提示
用户提示包括:(1)决策信号:“你已决定录用候选人A”,表明他们选择了有能力的对象;(2)性别标记,这是我们唯一的操作变量,按照标准的HEXACO观察者报告格式使用(Lee and Ashton, 2018);(3)任务:“对候选人A进行事后评估”。
#### 设计理由
该提示设计为对性别刻板印象应用的严格测试。我们通过断言招聘决定已经做出且被排除考虑(这一举措通常会减少人类评分者应用范畴刻板印象)来提供这种能力相关的个性化信息(Locksley et al., 1980; Fiske and Neuberg, 1990)。我们只关注性别,以便隔离性别刻板印象激活的影响,而不掺杂其他个性化信息。
#### 反机械式量表旋转
为了防止模型默认使用特定数字与特定量表含义之间的习得关联(例如,“5” = 强烈同意),我们在不同运行中随机化了数字到含义的映射。在一次运行中,“1”表示强烈同意;在另一次运行中,“5”表示强烈同意;在又一次运行中,“3”表示强烈同意。每次运行时都会告知模型哪个数字对应哪个选项。
#### 偶数响应量表
为了规避居中趋势偏差(Douven, 2018; Kusmaryono et al., 2022; Li et al., 2025...)相似文章
迈向超越英语中心化开发的大语言模型
本文证明了大语言模型严重偏向英语,并表明持续预训练在将模型适配到其他语言(尤其是文化理解方面)时,并不比从头训练更具成本优势。
我分析了25,500次LLM简历筛选来测量招聘偏见,结果令人警醒。
一项分析10个模型共25,500次LLM简历评估的研究发现,由“沉默偏见”驱动的偏见率高达45%,模型会编造听起来专业的借口来惩罚候选人。研究强调了公平性和稳定性的巨大差异,其中Claude、Mistral-Large和Llama 4最为稳定,而Qwen和较早期的Gemini模型则波动较大。
偏见与推理机制:解读链式思维提示对大型语言模型中性别偏见的影响
本文研究了链式思维提示对大型语言模型中性别偏见的影响,发现它并不能持续减少偏见,而且表面上的改进源于浅层服从而非真正的理解。
找不到地点:揭示多语言 LLM 中的隐式本地与全球偏见
Google Research 发布覆盖 12 种语言的 LocQA 数据集,发现多语言大模型在回答含混的地域相关问题时表现出强烈的美国中心与人口基数驱动的地域偏见。
当英语改写本地知识:大语言模型中的全球叙事主导
本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。