AI 安全的 geopolitics：区域大语言模型偏差的因果分析

arXiv cs.AI 2026/05/08 04:00 论文

摘要

本文引入了一个概率图模型框架，以因果方式审核大语言模型（LLM）的安全机制，揭示出由于忽视了语境的毒性，标准的观测指标高估了人口统计学偏差。

arXiv:2605.05427v1 公告类型：新论文摘要：随着大语言模型（LLM）被整合到全球软件系统中，确保公平的安全护栏成为一项关键要求。目前的公平性评估主要采用观测性方法来测量偏差，但这种方法受到测试数据集中与特定人口群体自然配对的主题固有有毒性的混淆。本研究引入了一个概率图模型（PGM）框架，以因果方式审核 LLM 的安全机制。通过应用 Pearl 的 do-operator，我们在数学上隔离了在提示中注入文化人口统计信息的因果效应。我们对来自不同地区的七个指令微调模型进行了大规模实证分析：美国（Llama-3.1-8B, Gemma-2-9B）、欧洲（Mistral-7B-v0.3）、阿联酋（Falcon3-7B）、中国（Qwen2.5-7B, DeepSeek-7B）和印度（Airavata-7B）。利用两个不同的数据集（ToxiGen 和 BOLD），研究结果显示观测性偏差和干预性偏差之间存在差异，表明标准的公平性指标可能因未能考虑语境毒性而高估人口统计学偏差。此外，因果概率揭示了不同的对齐趋势：西方模型对特定人口群体表现出更高的因果拒绝率，而东方模型整体干预率较低，并对区域人口表现出有针对性的敏感性。我们讨论了这些偏差的影响，强调人口敏感性的过度触发如何限制下游应用中的良性讨论。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:17

# AI 安全的地缘政治：区域大型语言模型偏差的因果分析
来源：https://arxiv.org/html/2605.05427
[1]\fnmAlif Al\surHasan

1]\orgdiv计算机科学系,\orgnameCase Western Reserve University,\orgaddress\cityCleveland,\postcode44106,\stateOH,\countryUSA

###### 摘要

随着大型语言模型（LLMs）被整合到全球软件系统中，确保公平的安全护栏已成为一项关键需求。当前的公平性评估主要采用观察性方法来测量偏差，这种方法受到测试数据集中特定人口统计特征与固有话题毒性之间自然关联的混淆影响。本研究引入概率图模型（PGM）框架，对 LLM 安全机制进行因果审计。通过应用 Pearl 的 do-算子，我们在数学上隔离了在提示词中注入文化人口统计特征的因果效应。我们针对七个源自不同地区的指令微调模型进行了大规模实证分析：美国（Llama-3.1-8B, Gemma-2-9B）、欧洲（Mistral-7B-v0.3）、阿联酋（Falcon3-7B）、中国（Qwen2.5-7B, DeepSeek-7B）和印度（Airavata-7B）。利用两个不同的数据集（ToxiGen 和 BOLD），研究结果揭示了观察性偏差与干预性偏差之间的差异，表明标准公平性指标因未能考虑上下文毒性而可能高估人口统计偏差。此外，因果概率表明了不同的对齐趋势：西方模型对特定人口群体表现出更高的因果拒绝率，而东方模型的整体干预率较低，并对区域人口表现出针对性的敏感性。我们讨论了这些偏差的影响，强调了人口敏感的过度触发如何限制下游应用中的良性讨论。

###### 关键词：

概率图模型，大型语言模型，算法公平性，因果推断，AI 对齐，AI 伦理

## 1 引言

随着大型语言模型（LLMs）成为现代软件生态系统的核心组件 [bommasani2021opportunities,zhao2023survey]，确保其安全且公平的部署已成为一项关键的道德 imperative。为了减轻有害、非法或有毒内容的生成，开发者对现代 LLM 应用严格的安全对齐技术，主要是基于人类反馈的强化学习（RLHF）[ouyang2022training] 和宪法 AI [bai2022constitutional]。虽然这些护栏成功防止了许多显式伤害 [touvron2023llama]，但它们经常引入一种严重的次要失效模式：夸张的安全性和人口统计偏差 [wang2023decoding,rottger2023xstest]。这种偏差表现为，当提示词中提到特定地理区域、宗教或文化人口统计特征时，AI 系统改变其生成行为、语气或遵从意愿。因此，不完善的安全过滤器经常在良性输入上过度触发，以 AI 安全为名系统地抹去少数群体的代表性并限制无害的讨论 [bender2021dangers,blodgett2020language]。

用于审计算法公平性的主流方法主要将 LLM 视为黑盒系统，几乎完全依赖诸如标准人口统计均等性 [dwork2012fairness,hardt2016equality,mehrabi2021survey] 等观察性指标。观察性方法评估安全拒绝的概率在不同人口群体之间是否在统计上相等。然而，这种策略存在一个根本性的结构缺陷：观察性数据本质上是有噪声的，并且与底层训练语料库中存在的社会刻板印象深度纠缠 [gehman2020realtoxicityprompts,dodge2021documenting]。如果评估数据集不成比例地将特定人口统计特征与高度有毒或政治化的背景相关联，正确对齐的 LLM 自然会发出安全拒绝。观察性指标本质上无法区分由有毒主题引发的合理拒绝与仅由人口统计标记引发的不合理拒绝。通过将上下文毒性与人口统计偏差混淆，标准评估不准确地对模型进行惩罚，并掩盖了算法歧视的真实机制 [pearl2009causality,peters2017elements]。

为了解决这种模糊性并强制实施算法问责制，我们提出通过应用概率图模型（PGM），将范式从观察性公平转向因果公平 [kusner2017counterfactual,kilbertus2017avoiding]。通过将 LLM 生成过程框定为离散贝叶斯网络，我们明确识别“话题毒性”作为一个关键的混淆变量，该变量积极影响提到的人口统计特征以及最终的生成安全结果。利用 Judea Pearl 的 do-算子 [pearl2009causality]，我们的框架执行数学图操作以中和这一混淆因素。这种因果干预允许测量干预性人口统计均等性——P(S|do(C1))=P(S|do(C2))——有效地过滤掉数据集毒性的背景噪声，以隔离人口统计注入对模型拒绝的直接真实因果效应 [makhlouf2020survey]。

为了实证验证这一框架并理解全球 AI 安全机制内的隐藏偏差，我们在对抗性（ToxiGen）和非对抗性（BOLD）数据集上，针对七个不同的指令微调模型执行了超过 180 万次干预推理。评估这些大规模系统的伦理问题目前是一个关键的研究领域，特别是关于其内部价值优先级如何反映特定的文化偏见 [lyu2025ethical]。由于传统方法难以准确地离散化分类数据（因为模型采用软拒绝），我们采用确定性的 320 亿参数 LLM-as-a-Judge 来分类这些生成结果，建立在自动化评估的最新进展之上 [zheng2023judging,chiang2024chatbot]。

为了理解 AI 安全机制中的隐藏偏差，我们将研究围绕以下四个研究问题展开：

- •RQ1：LLM 的地缘政治起源是否决定其安全行为？我们调查来自不同全球地区（如美国、欧洲、中国、阿联酋）的模型是否执行根本不同的安全定义。
- •RQ2：安全过滤器是否不成比例地抹去关于特定少数群体的无害对话？我们量化“过度触发”以确定模型是否仅仅因为人口统计关键词的存在而错误地拒绝良性提示。
- •RQ3：面对显式毒性时，模型是否同等保护所有边缘群体？我们分析“有害遵从性”以揭示安全过滤器是否优先保护高度公开的群体而非其他群体（例如，种族少数群体与残疾人群体）。
- •RQ4：现代对齐方法在严格无害的数据集上表现如何？我们在完全良性的文本上评估最先进的模型，以评估解决安全缺陷的努力是否导致了过度纠正。

最终，本研究证明因果推断是审计 AI 安全的基本要求。通过数学上分离合理的护栏触发与不合理的人口统计抹除，本文提出了三个主要贡献：

- •LLM 安全的新颖因果框架：我们引入一个 PGM，正式识别“话题毒性”为混淆变量，应用 do-算子在非结构化生成模型中评估干预性人口统计均等性。
- •弥合生成文本与贝叶斯网络之间的差距：我们通过利用确定性 32B LLM-as-a-Judge 准确离散化软拒绝，建立了在开放式文本上进行离散因果推断的稳健方法论。
- •对齐的地缘政治：我们提供了一次大规模因果审计，揭示 AI 安全并非客观标准，而是一种地理构建——展示了来自不同地区的不同模型在保护策略上的差异。

## 2 相关工作

大型语言模型（LLMs）中人口统计偏差的分析位于算法公平性、因果推断和自然语言处理评估的交叉点。本研究建立在之前文献的三个不同领域的基础之上，并解决了其中的关键缺口。

### 2.1 安全对齐与护栏过度触发

随着基础模型 [bommasani2021opportunities,zhao2023survey] 在高风险环境中的部署，开发者依赖对齐技术，如基于人类反馈的强化学习（RLHF）[ouyang2022training] 和宪法 AI [bai2022constitutional]，以抑制非法和有毒的生成。虽然这些方法有效地减少了显式伤害 [touvron2023llama]，但它们引入了一种次要失效模式：夸张的安全触发 [wang2023decoding]。在试图最小化假阴性率（未能阻止有毒内容）的同时，对齐管道经常无意中推高假阳性率。

诸如 XSTest [rottger2023xstest] 基准测试和红队测试倡议 [perez2022red] 在证明模型经常拒绝完全安全的提示方面发挥了重要作用。然而，这些基准测试仍然是严格观察性的；它们通过策划良性陈述列表来识别过度拒绝的症状，但缺乏结构性的数学框架来证明模型为何失败。因此，当仅提到敏感话题或边缘群体时，模型经常过度触发，无意中抹去少数群体的代表性并限制无害的讨论 [bender2021dangers,blodgett2020language]。

此外，安全对齐并非文化通用的。“安全”生成行为的定义本质上与注释者的地缘政治和社会文化背景相关 [talat2022you]。西方开发的基础模型不成比例地编码以美国为中心的社会政治结构，特别是在种族方面，而源自其他地缘政治领域的模型则针对独特的、局部的安全约束进行优化 [blodgett2020language,talat2022you]。本研究通过将讨论从策划的观察性基准测试推进，提供了跨不同全球范式的对齐策略的首次比较因果分析。

### 2.2 从观察性公平到因果公平

算法偏差评估主要由观察性指标主导。基础机器学习公平框架，如人口统计均等性和均衡机会 [dwork2012fairness,hardt2016equality,mehrabi2021survey]，测量模型结果是否在统计上独立于受保护的属性。然而，观察性数据本质上是有噪声的，并且与大规模网络抓取语料库中存在的社会刻板印象深度纠缠 [gehman2020realtoxicityprompts,dodge2021documenting]。

为此，该领域出现了向因果公平 [kilbertus2017avoiding,makhlouf2020survey] 的理论转变，其基础是结构因果模型 [pearl2009causality,peters2017elements]。关于反事实公平 [kusner2017counterfactual] 的研究表明，真正的公平要求在干预状态下评估模型——测量如果人口统计属性不同而其他所有变量保持不变，模型会有什么反应。虽然因果公平已成功应用于表格数据，但将干预性框架应用于非结构化生成文本在计算上仍然具有挑战性。本文通过使用概率图模型（PGM）映射生成文本的因果路径，明确量化标准观察性审计引入的测量误差，从而弥合了这一差距。

### 2.3 自动化评估与 LLM-as-a-Judge 技术

分析开放式文本生成中的偏差带来了显著的评估困难。早期的偏差基准测试严重依赖精确的字符串匹配或手动策划的词表来检测毒性 [gehman2020realtoxicityprompts]。然而，现代 LLM 很少发出标准化的拒绝模板；它们经常采用软拒绝，从而规避基本的基于关键词的匹配技术。

随后的方法利用语义嵌入来测量模型输出与已知拒绝模板之间的余弦相似度 [reimers2019sentence]。虽然比精确的词汇匹配更稳健，但这种方法需要手动阈值调整，这会引入主观性，并且经常无法捕捉上下文转换 [zheng2023judging]。最近，该领域转向“LLM-as-a-Judge”范式，利用高容量、指令微调的模型来评估目标模型的输出 [zheng2023judging,chiang2024chatbot]。这种方法与复杂生成任务的人类注释高度一致。本文采用了这种先进的方法论，部署 Qwen2.5-32B-Instruct 作为确定性裁判模型，以实现准确贝叶斯网络参数估计所需的严格分类离散化。

## 3 背景：因果推断与 do-演算

为了解决观察性公平指标的局限性，本研究采用结构因果模型（SCMs）和 do-演算 [pearl2009causality] 的框架。在标准机器学习评估中，公平性通常通过条件概率 P(Y|X) 进行评估，该概率量化给定观察特征 X 时结果 Y 的可能性。然而，纯观察性分布容易受到未观察到的混淆变量引起的虚假相关性的影响，经常导致直接效应的有偏估计。

混淆变量，记为 Z，是一个因果上影响自变量 X 和因变量 Y 的变量。在存在 Z 的情况下，观察性概率 P(Y|X) 捕捉了 X 对 Y 的直接因果效应以及通过后门路径 X←Z→Y 流动的虚假非因果关联。因此，观察性指标无法准确隔离潜在的因果机制。

为了计算真实的因果效应，Pearl 引入了 do-算子 do(X=x)，它建模了一种结构干预，其中变量 X 被确定性设置为常数 x。此操作有效地切断因果图中指向 X 的所有传入边，阻断混淆变量 Z 的影响。假设因果图已知并满足后门标准，干预分布可以通过后门调整从纯观察性数据中估计：

P(Y|do(X=x)) = ∑_z P(Y|X=x,Z=z)P(Z=z)

## 4 方法论

### 4.1 因果有向无环图（DAG）架构

为了从理论因果推断过渡到 LLM 的具体评估，我们将生成安全过程建模为离散贝叶斯网络 [koller2009probabilistic]。建立在第 3 节（https://arxiv.org/html/2605.05427#S3）建立的框架之上，我们将提示生成的核心变量映射到由三个主要节点定义的有向无环图（DAG）中：

- •文化（C）：自变量（相当于 X），代表注入到输入提示中的特定人口统计或文化群体。
- •话题毒性（T）：混淆变量（相当于 Z），代表在人口统计注入之前提示核心主题本身的固有安全状态（例如，良性与显式或隐式有毒）。
- •安全结果（S

AI 安全的 geopolitics：区域大语言模型偏差的因果分析

相似文章

默认极化：LLM 内容策展中的推荐偏差审计

定义和评估 LLM 中的政治偏见

我们一直在分析人们如何在法律与合规任务中使用LLM（GDPR、AI法案等）。

算法判断的地理学：大语言模型中介、地点身份与住房搜索中的种族引导

哪些变化重要？通过相关性敏感评估和求解器推理实现可信赖的法律AI

提交意见反馈