当英语改写本地知识:大语言模型中的全球叙事主导
摘要
本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。
查看缓存全文
缓存时间: 2026/06/01 09:23
# 当英语改写本地知识:大语言模型中的全球叙事主导
来源:https://arxiv.org/html/2605.30481
Md Arid Hasan¹, Ruwad Naswan², Farhan Samir¹, Sharifa Sultana³, Syed Ishtiaque Ahmed¹
¹多伦多大学,²孟加拉国工程技术大学,³伊利诺伊大学厄巴纳-香槟分校
\{arid, ishtiaque\}@cs.toronto.edu
###### 摘要
大语言模型(LLMs)被广泛用作跨语言知识接口。然而,具有文化根基的问题往往反映的是全球主导叙事,而非本地语境。我们将这种失败模式称为“全球叙事主导”,并以孟加拉语(一种低资源文化语境)为例进行研究。我们引入了CulturalNB数据集,包含717个手工整理的孟加拉文化实例,配有平行的孟加拉语-英语问答对、支持性证据、元数据以及社会文化注释。通过仅使用问题和基于证据的提示,我们使用人类评判员和两个独立的LLM评判员,对九个最先进的LLM进行了评估,指标包括跨语言一致性、语言锚定、全球替代、制度偏见和认知视角覆盖。结果表明,用英语提问会系统性地增加全球替代和制度框架,同时减少本地视角覆盖。本地证据提高了事实一致性和视角覆盖,但并未消除语言引起的认知偏移。这些发现表明,LLM中的文化失败不仅仅是知识缺失的错误,还是根基和叙事优先级排序的失败。
# 当英语改写本地知识:大语言模型中的全球叙事主导
Md Arid Hasan¹, Ruwad Naswan², Farhan Samir¹, Sharifa Sultana³, Syed Ishtiaque Ahmed¹
¹多伦多大学,²孟加拉国工程技术大学,³伊利诺伊大学厄巴纳-香槟分校
\{arid, ishtiaque\}@cs.toronto.edu
![[Uncaptioned image]](https://arxiv.org/html/2605.30481v1/x1.png)
图1:来自CulturalNB的示例,展示全球叙事主导和评估维度。该图显示一个具有文化根基的问题、一个翻译后的英语问题以及GPT-5.4生成的回答(孟加拉语和英语)。高亮的回答代表叙事主导。
## 1 引言
大语言模型(LLMs)越来越多地成为跨语言和跨文化知识的媒介。然而,它们的文化能力仍不均衡:关于低资源社区的知识往往不如关于全球主导语境的知识可靠、扎根,且对提示语言更敏感(Joshi et al., 2020; Bender et al., 2021; Blodgett et al., 2020)。当用户提出具有文化根基的问题时,这一点尤为关键,因为问题的正确解读依赖于本地历史、制度、实践或认知传统(Caughman et al., 2026; Younas and Zeng, 2026)。在这种情况下,回答可能流畅且貌似事实,但却用全球主导的解释替代了本地解释。先前研究表明,多语言LLM表现出文化知识差距、跨语言不一致以及全球主导偏见(Rystrøm et al., 2025; Cecilia Liu et al., 2024; Naous et al., 2024; Wang et al., 2024)。模型在回答特定文化问题时,用英语往往比用相应的本地语言更准确(Tanwar et al., 2025),而更大的模型在事实准确性上的提升超过跨语言一致性(Qi et al., 2023)。更广泛的评估还表明,特定文化基准会改变模型排名,而隐含区域的问题仍然特别具有挑战性(Singh et al., 2025; Romanou et al., 2025)。这些发现表明,LLM中的文化知识不仅受数据稀缺的影响,还受到语言、可见性和权威性不平等分布的影响。然而,现有工作存在三个空白。首先,大多数研究衡量模型是否知道文化特定事实(Guo et al., 2025),但不衡量解释是否跨语言保持一致。其次,很少有评估区分知识缺失与本地知识可用但被全球先验覆盖的情况(Hupkes and Bogoychev, 2025),错误可能源于推理时的偏见以及知识的缺失(Yu et al., 2024)。第三,先前的评估很少测试提供本地证据是否足以打破全球主导叙事(Nguyen et al., 2025; Wan et al., 2025),尽管基于证据的推理仍然不可靠(Feng et al., 2024; Shao et al., 2026)。我们通过“全球叙事主导”(GND)来解决这些空白。我们将GND操作化为:用更全球普遍、制度标准化或高频的替代品来替换、抽象或重构文化本地化的指称。我们引入了CulturalNB,一个以孟加拉文化为重点的数据集,包含717个手工整理的实例,涵盖五个领域。每个实例包括一个具有文化根基的问答对、支持性证据、保持语境的英文翻译、来源元数据以及社会文化注释。我们使用CulturalNB在两种设置下评估九个最先进的LLM:仅使用问题(暴露知识缺失下的行为)和基于证据(测试当提供相关本地证据时错误是否持续)。每个条目用孟加拉语和英语提示,以实现语言引起的偏移的反事实测量,如图1所示。我们使用一个人类评判员和两个独立的LLM评判员,通过五个指标评估回答:跨语言事实一致性、语言锚定偏见、全球替代率、制度偏见率和认知视角覆盖。这些指标评估事实一致性、全球替代、制度框架和本地视角的多样性。我们的结果表明,最先进的LLM在文化或跨语言上并不稳定。英语提示经常减少本地根基,增加全球替代,并鼓励制度主导的框架。提供本地证据在多个模型中改善了几个指标,特别是视角覆盖和事实一致性,但并未消除语言引起的偏移。我们的贡献如下:
- 我们引入了CulturalNB,一个以孟加拉文化为重点的数据集,包含717个手工整理的实例,涵盖五个领域。
- 我们设计了一个平行的孟加拉语-英语评估设置,以测量提示语言如何改变模型行为,同时保持相同的文化内容。
- 我们使用仅使用问题和基于证据的提示来区分知识缺失失败与根基和叙事优先级排序失败。
- 我们使用一个人类评判员和两个基于LLM的评判员,通过五个指标评估九个LLM。
- 我们发现英语提示系统性地偏爱全球和制度解释,而本地证据改善了事实根基,但并未完全消除语言条件化的框架偏移。
## 2 相关工作
### 2.1 多语言LLM中的文化知识
近期研究表明,LLM在不同语言和区域间编码文化知识不均(Pawar et al., 2025)。基于基准的研究(如BLEND (Myung et al., 2024)、CaLMQA (Arora et al., 2025)、MultiNativQA (Hasan et al., 2025)等)发现,模型在低资源语言上的表现不仅较低,而且跨文化语境不稳定。Tanwar et al. (2025) 表明,模型在回答关于某个文化的问题时,用英语往往比用该文化的本地语言更准确,这表明失败源于跨语言知识转移薄弱,而不仅仅是数据稀缺。同样,Qi et al. (2023) 发现,增加模型规模提高了事实准确性,但并未可靠地提高跨语言一致性。这些发现表明,多语言能力和事实能力并不一定意味着文化稳定的推理。更广泛的多语言评估强化了这一模式。Singh et al. (2025) 表明,MMLU的相当一部分问题需要文化特定知识,并且当在此子集上评估时,模型排名会发生变化。Romanou et al. (2025) 进一步表明,LLM在来自本地考试的隐含区域问题上失败比例过高,这些问题需要文化根基但并未明确标记。这些研究表明,标准基准往往通过将知识视为文化中性来掩盖文化依赖性。
### 2.2 文化偏见与全球主导
近期工作认为,LLM倾向于偏爱全球主导(通常是西方中心)的视角。Naous et al. (2024) 表明,即使在使用阿拉伯语仅模型时,西方中心偏见也可能出现,部分原因可追溯到阿拉伯语维基百科本身的组成。这表明使用非英语语言并不自动保证本地扎根的知识(Zhang et al., 2025; Bang et al., 2025)。Wang et al. (2024) 同样发现,GPT-4尽管整体能力很高,但表现出强烈的文化主导,表明规模本身并不能消除文化偏见。这些观察与对NLP公平性和表征危害的更广泛关注相关。Blodgett et al. (2020) 认为,当危害被定义不明确时,语言技术可能复制社会等级,而Bender et al. (2021) 强调,大规模训练数据可能放大嵌入在网络文本中的主导视角。在多语言环境中,Joshi et al. (2020) 表明,语言技术在全球语言中仍然高度不均,低资源社区获得的支持较弱。Gallegos et al. (2024) 进一步指出,多语言公平性缺乏共享定义和评估标准,使得跨语言和跨文化比较偏见发现变得困难。
### 2.3 跨语言一致性与语言作为锚点
先前的多语言基准如XNLI (Conneau et al., 2018) 和XTREME (Hu et al., 2020) 评估跨语言迁移,但强大的多语言表现并不能保证模型跨语言保持相同的事实或文化解释 (Ying et al., 2025)。近期研究表明,提示语言作为认识论条件信号,塑造大语言模型中的检索知识和文化假设 (Wang et al., 2025; Qi et al., 2023; Tanwar et al., 2025)。这种效应在低资源环境中尤为明显,英语提示往往引发全球主导叙事,而本地语言则浮现更多区域扎根的视角。然而,先前研究主要关注表现差距或一般跨语言不一致性,并未隔离语言选择是否引起系统性、方向性的向全球主导解释的偏移。因此,模型输出中的文化优先级排序机制仍未被充分探索。在本工作中,我们通过测试孟加拉语和英语提示是否产生语义一致的事实主张,以及英语是否系统性偏向全球主导叙事,从而将跨语言分歧视为文化主导的信号。
### 2.4 知识差距、幻觉与证据使用
近期工作区分了由知识缺失引起的失败与由推理时先验覆盖存储知识引起的失败。Yu et al. (2024) 表明,即使相关知识存在,模型也可能产生幻觉,这一区别在我们的设置中至关重要:模型可能拥有本地文化知识,但当提示语言激活更强的全局信息时,却生成全球主导的回答。关于弃权与不确定的研究进一步表明,这些认识论失败在文化上是不均匀的 (Clark et al., 2025; Yadkori et al., 2024)。Feng et al. (2024) 发现,模型在关于非洲和亚洲国家的问题上弃权时可靠性较低,而Shao et al. (2026) 表明,强化学习可以在不加强基于证据推理的情况下提高表面准确性。这些发现强调了基于证据的评估对于区分真正的知识差距与根基和优先级排序失败的重要性。现有工作表明,LLM表现出文化知识差距、跨语言不一致和全球主导偏见。然而,当相关本地信息可用时,这些失败是否持续存在仍未被充分探索。我们通过受控干预,使用仅使用问题和基于证据的提示,来测试本地证据是否能纠正或覆盖主导先验。我们进一步使用反事实的孟加拉语-英语提示,来检查语言是否单独改变事实主张、权威框架和认知覆盖。这使我们能够识别全球叙事主导何时持续以及何时被打破。
## 3 数据集
我们构建了一个以孟加拉文化为重点的数据集,名为CulturalNB,用于研究低资源和历史边缘化文化语境中的文化扎根知识。尽管该数据集以孟加拉语和孟加拉文化内容为中心,但每个实例都配有等效的英文翻译,以实现受控的跨语言评估。这种平行设计使我们能够在保持原始内容文化特异性的同时,比较模型在孟加拉语和英语中的表现和叙事。本节提供数据收集和注释过程的详细概述,包括记录来源以及用于结构和预处理的程序。相似文章
迈向超越英语中心化开发的大语言模型
本文证明了大语言模型严重偏向英语,并表明持续预训练在将模型适配到其他语言(尤其是文化理解方面)时,并不比从头训练更具成本优势。
找不到地点:揭示多语言 LLM 中的隐式本地与全球偏见
Google Research 发布覆盖 12 种语言的 LocQA 数据集,发现多语言大模型在回答含混的地域相关问题时表现出强烈的美国中心与人口基数驱动的地域偏见。
BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集
# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用
跨语言共识:通过多语言自一致性对齐多语言文化知识
本文提出一个自监督框架,利用多语言自一致性和自我批评机制在不同语言间迁移文化知识,通过从本地语言表征中揭示潜在文化知识,在BLEnD基准测试的英语查询中平均提升5.03%。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。