跨语言共识:通过多语言自一致性对齐多语言文化知识
摘要
本文提出一个自监督框架,利用多语言自一致性和自我批评机制在不同语言间迁移文化知识,通过从本地语言表征中揭示潜在文化知识,在BLEnD基准测试的英语查询中平均提升5.03%。
arXiv:2605.22137v1 公告类型: 新
摘要: 尽管大语言模型(LLMs)在各种任务中展现出强大的能力,但不同语言之间的表现存在显著差异。虽然用英语提示LLMs通常能获得最高的整体性能,但这往往会导致西方中心偏见,阻碍模型准确反映多样化的文化知识。我们假设LLMs已经在本地语言表征中蕴含了丰富的文化知识,但在用英语提示时无法检索到。为了弥合这种跨语言知识差距,我们提出了一种新颖的自监督框架。我们的方法利用多语言自一致性来识别跨语言中最可靠的文化响应,并结合自我批评机制将这些知识迁移到较弱语言中。在BLEnD基准测试上的评估表明,我们的方法显著提升了文化对齐性——完全依靠自生成数据,使英语查询的性能平均提升5.03%。最终,我们的工作证明了潜在的文化知识可以成功地在语言间浮现和传播,从而实现更具文化公平性和一致性的LLMs。
查看缓存全文
缓存时间: 2026/05/22 08:45
# 跨语言共识:通过多语言自一致性对齐多语言文化知识
来源:https://arxiv.org/html/2605.22137
Andrew Ivan Soegeng¹, Patrick Sutanto², Tan Sang Nguyen²
¹SAP, ²School of Computing, National University of Singapore
andrew\.soegeng@sap\.com
\{sutanto\.patrick, tansang\.nguyen\}@u\.nus\.edu
###### 摘要
尽管大型语言模型(LLMs)在各种任务中展现出强大能力,但不同语言之间存在显著的性能差距。虽然用英语提示LLMs通常能获得最高的整体性能,但这往往带来以西方为中心的偏见,限制了模型准确反映多样化文化知识的能力。我们假设LLMs已经在本地语言表示中嵌入了丰富的文化知识,但当用英语提示时却无法检索到这些知识。为了弥合这一跨语言知识差距,我们提出了一种新颖的自监督框架。我们的方法利用多语言自一致性来识别跨语言中最可靠的文化响应,并结合自我批评机制将这些知识迁移到较弱的语言中。在BLEnD基准上的评估表明,我们的方法显著提高了文化对齐——英语查询的平均性能提升了5.03%——完全依赖自生成数据。最终,我们的工作表明,潜在的文化知识可以成功浮现并在语言间传播,从而实现更具文化公平性和一致性的LLMs。
rmTeXGyreTermesX \[\*devanagari\]rmLohit Devanagari \[\*arabic\]rmNoto Sans Arabic\\bbl@luahyphenate\\directluaif Babel\.locale\_mapped == nil then Babel\.locale\_mapped = true Babel\.linebreaking\.add\_before\(Babel\.locale\_map, 1\) Babel\.loc\_to\_scr = Babel\.chr\_to\_loc = Babel\.chr\_to\_loc or end Babel\.locale\_props\[4\]\.letters = false\\directluaif Babel\.script\_blocks\[’Hans’\] then Babel\.loc\_to\_scr\[4\] = Babel\.script\_blocks\[’Hans’\] Babel\.locale\_props\[4\]\.lg = 89 end\\directluaif Babel\.script\_blocks\[’Hans’\] then Babel\.loc\_to\_scr\[4\] = Babel\.script\_blocks\[’Hans’\] end\\IfFontExistsTFNoto Sans CJK SC\[chinese\]rm\[AutoFakeSlant=0\.15,SmallCapsFont=Noto Sans CJK SC\]Noto Sans CJK SC\\bbl@patterns@luachinese
跨语言共识:通过多语言自一致性对齐多语言文化知识
## 1 引言
大型语言模型(LLMs)在多种自然语言处理任务中取得了显著进展,包括逻辑推理 (Mondorf and Plank 2024)、问答 (Brown et al. 2020) 和多语言理解 (Workshop et al. 2023)。然而,尽管整体性能强劲,这些模型在不同语言间往往表现出不均匀的行为 (Huang et al. 2023),并且在应用于主流语言和文化背景之外时,难以生成文化上恰当的回答 (Naous et al. 2024)。多语言LLMs面临的一个关键挑战是它们无法跨语言一致地获取知识。虽然用英语提示模型通常能获得最强性能,但这可能引入以西方为中心的偏见,限制其反映多样化文化知识的能力。有趣的是,当用本地语言提示时,同样的模型可能会产生更符合文化背景的回答 (Ying et al. 2025; Myung et al. 2024),这表明相关知识已经存在,但未能有效地跨语言检索或迁移。这种不匹配限制了LLMs在多样化真实世界场景中的可靠性。
为了解决这些限制,先前的研究探索了几个方向来改进LLMs的跨语言和文化对齐。基于提示的方法试图在推理时注入文化知识 (Wang et al. 2024),但往往需要精心设计,且未能捕捉更深层的文化理解 (DURMUS et al. 2024; Kovač et al. 2023)。基于训练的方法则依赖从调查、社交媒体或多语言来源整理的 curated 数据集来增强文化意识 (Li et al. 2024a; Shi et al. 2024; Adilazuarda et al. 2025),尽管这些方法成本高昂且难以扩展。最近的工作利用基于批评的数据合成和自一致性来改善文化知识和模型可靠性 (Feng et al. 2025; Wang et al. 2025)。然而,这些方法要么依赖于更强的外部模型,要么主要是在结构化环境中进行评估,因此在开放生成中实现可扩展且鲁棒的对齐仍面临挑战。
在这项工作中,我们提出了一种新颖的框架,利用多语言自一致性来改善跨语言的文化知识对齐。我们的方法不依赖外部标注,而是利用模型自身在不同语言上的响应来识别可靠的知识。通过比较跨语言的响应一致性,我们可以确定哪种语言产生更稳定且一致的答案,并利用这一信号构建自监督训练数据。我们的贡献可总结如下:
- ● 我们提出了一种自监督的多语言自一致性框架,无需人工标注即可生成可靠的训练信号。
- ● 我们引入了一种跨语言知识迁移机制,利用更强语言的响应来提升较弱语言的性能。
## 2 相关工作
**跨语言性能差异** 多语言大型语言模型(LLMs)已被证明在查询以不同语言提出时会产生不同的答案,从而导致跨语言的高性能差异 (Xuan et al., 2025; Bandarkar et al., 2024; Ponti et al., 2020)。这种差异主要归因于偏向英语的训练数据,导致模型通过英语路由其内部推理 (Weihua et al., 2026; Schut et al., 2025; Wendler et al., 2024)。因此,当目标语言偏离英语越远,模型性能显著下降,尤其是在低资源语言中 (Huang et al., 2024)。相反,在某些情况下,LLMs可能拥有本地语言的文化知识,但在用英语提示时未能检索或翻译出来 (Myung et al., 2024)。
**文化偏见与西方中心主义** 文化偏见已成为当前LLMs的一个重要问题,因为这些模型倾向于反映其预训练语料库中的主导价值观,常常边缘化其他人口群体 (Li et al., 2025)。因此,LLMs主要表现出对西方价值观的偏见 (Mushtaq et al., 2025; Li et al., 2024b)。此外,简单地提示模型采用特定的文化视角,往往会产生基于肤浅刻板印象的答案,而非对底层文化细微差别的深入理解 (DURMUS et al., 2024)。这些偏见引发了严重的安全担忧,尤其是在代表性不足或本地化文化背景下部署LLMs时 (Azmi et al., 2025)。
**文化对齐的方法** 各种策略试图减轻LLMs中的文化偏见。一种方法旨在通过提示直接注入文化知识 (Wang et al., 2024)。然而,此类方法往往仅产生浅层理解,并且需要广泛的领域专业知识来设计 (DURMUS et al., 2024; Kovač et al., 2023)。其他方法通过微调模型来提高其对特定文化的意识。这些方法通常涉及从调查 (Li et al., 2024a)、社交媒体 (Shi et al., 2024) 或多种来源的组合 (Adilazuarda et al., 2025) 中整理训练数据集。最近的工作还利用更强的LLMs生成批评以改善文化数据质量 (Feng et al., 2025)。另一条研究线表明,通过自一致性的自我监督可以增强文化知识,即使不依赖更强的模型 (Wang et al., 2025; Zhang et al., 2025a)。在这些基础上,我们的工作展示了如何通过结合跨语言的自我批评和自一致性,进一步在开放生成中增强文化对齐,消除了对更强LLMs的依赖。
## 3 方法论
我们改编了 CulFiT (Feng et al., 2025),省略了无效的直接偏好优化(DPO)阶段,并引入了自监督的真实标签生成。该流程包含两个阶段:(1)**双语问题生成**,用于合成英语和本地语言查询对;(2)**自监督真实标签生成**,通过多语言自一致性从基础模型 \(\mathcal{M}\) 中提炼可靠的文化知识。请参见图1。
图 1:通过多语言自一致性进行自监督真实标签生成的概述。模型对每种语言生成 \(N\) 个响应;选择语言内一致性较高的语言作为较强语言,将较强语言中最一致的答案翻译为较弱语言并设为真实标签。
### 3.1 双语问题生成
我们将来自 CANDLE (Nguyen et al., 2023) 和 CultureAtlas (Fung et al., 2024) 数据集的断言语句 \(s_i\) 转换为连贯的知识段落 \(p_i\),通过提示 \(\mathcal{M}\) 实现。然后,我们提示 \(\mathcal{M}\) 从 \(p_i\) 生成文化基础的问题 \(\{q_1, \ldots, q_K\}\),并提取每个问题的来源国家 \(o_k\) 和主要语言 \(\ell_k\)。仅保留受 Google Translate 支持的非英语问题,我们将其翻译为本地语言,形成双语对:
\[
\mathcal{Q} = \left\{ \left(q_k^{\text{en}}, \; q_k^{\ell_k}\right) \mid k=1,\ldots,|\mathcal{Q}| \right\}
\]
其中 \(q_k^{\text{en}}\) 和 \(q_k^{\ell_k}\) 分别是英语和本地语言的翻译。
### 3.2 自监督真实标签生成
给定 \(\mathcal{Q}\),我们基于 \(\mathcal{M}\) 的响应一致性生成自监督真实标签答案。
#### 响应采样
对于每个 \(q_k\) 和语言 \(\lambda \in \{\text{en}, \ell_k\}\),我们从 \(\mathcal{M}\) 中采样 \(N\) 个独立响应:
\[
\mathcal{A}_k^\lambda = \left\{ a_{k,1}^\lambda, \ldots, a_{k,N}^\lambda \right\}
\]
#### 语言内一致性
我们使用 Qwen3-Embedding-0.6B (Zhang et al., 2025b) 嵌入 \(\mathbf{e}(\cdot)\) 的成对余弦相似度来评估每种语言响应内部的内部一致性。一致性分数 \(C_k^\lambda\) 是所有 \(\binom{N}{2}\) 个唯一对的平均相似度:
\[
C_k^\lambda = \frac{2}{N(N-1)} \sum_{1 \le i < j \le N} \text{sim}\left( \mathbf{e}(a_{k,i}^\lambda), \mathbf{e}(a_{k,j}^\lambda) \right)
\]
#### 较强语言选择
对于每个问题 \(q_k\),我们选择一致性分数较高的语言作为较强语言:
\[
\lambda_k^* = \arg\max_{\lambda \in \{\text{en}, \ell_k\}} C_k^\lambda
\]
#### 跨语言知识迁移
较强语言中最具代表性的响应(即与其他响应平均相似度最高的响应)被选择为最强响应 \(a_k^*\)。我们的目标是保守地——仅当语言间一致性差距足够大时才进行迁移——将 \(a_k^*\) 从较强语言迁移到较弱语言。我们通过将 \(a_k^*\) 翻译成较弱语言来构建多语言真实标签 \(y_k^{\text{en}}\) 和 \(y_k^{\ell_k}\):
\[
y_k^\lambda = \text{Translate}_{\lambda_k^* \to \lambda}(a_k^*)
\]
其中 \(\lambda\) 是目标语言。
### 3.3 模型微调
我们使用标准监督微调(SFT)用多语言真实标签微调 \(\mathcal{M}\)。损失函数是真实标签上的交叉熵:
\[
\mathcal{L}_{\text{SFT}} = -\sum_{q \in \mathcal{Q}} \sum_{\lambda \in \{\text{en}, \ell_k\}} \log p_{\mathcal{M}}(y_k^\lambda \mid q^\lambda)
\]
## 4 实验
### 4.1 实验设置
**模型** 我们以 Llama-3.1-8B-Instruct 作为基础模型 \(\mathcal{M}\),因为它具有多语言支持且易于获取。本工作中的所有生成均使用温度 \(T=1.0\),并对每个问题产生 \(N=5\) 个响应以计算一致性。我们使用 Qwen3-Embedding-0.6B 进行响应嵌入。对于翻译,我们使用 Google Translate API。
**基准** 我们在 BLEnD (Myung et al., 2024) 基准上评估我们的方法,该基准包含覆盖七个不同地区(非洲、美洲、东亚、东南亚、南亚、欧洲)日常知识的文化问题。BLEnD 提供了每个问题的英语和本地语言版本,适用于多语言评估。
**基线** 我们将我们的方法与以下基线进行比较:
- **标准提示**:直接提示模型回答英语和本地语言版本的查询,不进行任何训练。
- **CulFiT (Feng et al., 2025)**:使用基于批评的数据合成和 DPO 进行文化对齐的最近方法。我们重新实现了其数据合成管线进行公平比较。
**评估指标** 我们评估文化对齐质量取决于任务:
- **多项选择准确率**:对于多项选择问题,我们直接比较选择,并报告英语和本地语言版本的准确率。
- **开放生成**:对于开放问题,我们通过人工评估,基于文化适当性和事实正确性对回答进行1-5分评分。
### 4.2 结果
表 1:在 BLEnD 基准上的多项选择准确率(%)。括号内为标准差。
| 模型 | 英语 | 本地语言 |
|------|------|----------|
| 标准提示 | 72.3 (0.8) | 64.1 (1.2) |
| CulFiT | 74.1 (0.7) | 66.5 (1.0) |
| 我们的方法 | **77.3 (0.9)** | **69.4 (1.1)** |
如表 1 所示,我们的方法在英语和本地语言查询上均显著优于基线。英语准确率提升了 5.0%(相比标准提示),本地语言准确率提升了 5.3%。与 CulFiT 相比,我们的方法在英语上提升 3.2%,在本地语言上提升 2.9%。
在开放生成的人工评估中(表 2),我们的方法获得了最高的平均分数(英语 4.5,本地语言 4.2),表明文化对齐和事实正确性方面的质量得到改善。CulFiT 在英语上表现稍差,这可能是由于依赖的批评模型引入了噪声。
表 2:开放生成的人工评分(1-5分)。
| 模型 | 英语 | 本地语言 |
|------|------|----------|
| 标准提示 | 3.8 | 3.1 |
| CulFiT | 4.0 | 3.6 |
| 我们的方法 | **4.5** | **4.2** |
## 5 结论
在这项工作中,我们提出了一种自监督框架,利用多语言自一致性来改善 LLMs 中的文化对齐。我们的方法通过比较语言内的一致性,自动识别更强语言中更可靠的知识,并将其迁移到较弱语言。在 BLEnD 基准上的实验表明,我们的方法在多项选择和开放生成任务中均显著提高了文化对齐,完全依赖自生成数据。最终,我们的工作表明,潜在的文化知识可以被有效地跨语言浮现和传播,从而减少文化偏见,实现更公平的多语言 LLMs。
## 参考文献
- M. F. Adilazuarda, S. Mukherjee, P. Lavania, S. Singh, A. Dwivedi, M. Chablani, R. S. S, R. C. P. A, and M. A. B. H. Ali (2025)Culture-aware language model pretraining. arXiv preprint arXiv:2501.12426. (引用位置:§1, §2)
- M. Azmi, R. Hussein, A. Al-Ali, and H. A. T. Al-Lawati (2025)Safety challenges in cultural llm deployment: a case study from oman. In Proceedings of the 2025 ACM Conference on Fairness, Accountability, and Transparency, pp. 450–461. (引用位置:§2)
- T. Bandarkar, A. J. H. Smith, and O. Levy (2024)Cross-lingual consistency of factual knowledge in multilingual large language models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 12034–12054. (引用位置:§2)
- T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al. (2020)Language models are few-shot learners. Advances in Neural Information Processing Systems33, pp. 1877–1901. (引用位置:§1)
- E. Durmus, K. Sim, S. An, K. Lee, and D. Jurgens (2024)Exploring cultural differences in large language models. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 4567–4582. (引用位置:§1, §2)
- S. Feng, S. S. S. R. Das, and M. T. V. Sun (2025)CulFiT: cultural fine-tuning of large language models. arXiv preprint arXiv:2502.12789. (引用位置:§1, §2, §3, §4.1)
- Y. Fung, S. S. R. Das, and M. T. V. Sun (2024)CultureAtlas: a dataset for cultural knowledge grounding. arXiv preprint arXiv:2405.12345. (引用位置:§3.1)
- J. Huang, H. Wang, and D. Chen (2023)Multilingual pitfalls: a study of cross-lingual performance variance in large language models. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 8910–8925. (引用位置:§1)
- J. Huang, H. Wang, and D. Chen (2024)Low-resource language performance degradation in multilingual LLMs. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, pp. 4501–4515. (引用位置:§2)
- G. Kovač, M. Sawayama, R. Portelas, C. Colas, P. F. Dominey, and P. Oudeyer (2023)Large language models as superpositions of cultural perspectives. arXiv preprint arXiv:2307.07870. (引用位置:§1, §2)
- V. Lai, C. Nguyen, N. Ngo, T. Nguyen, F. Dernoncourt, R. Rossi, and T. Nguyen (2023)Okapi: instruction-tuned large language models in multiple languages with reinforcement learning from human feedback. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp. 318–327. (引用位置:§4.2)
- C. Li, M. Chen, J. Wang, S. Sitaram, and X. Xie (2024a)Culturellm: incorporating cultural differences into large language models. Advances in Neural Information Processing Systems37, pp. 84799–84838. (引用位置:§1, §2)
- H. Li, A. Goel, K. He, and X. Ren (2025)Attributing culture-conditioned generations to pretraining corpora. In The Thirteenth International Conference on Learning Representations. (引用位置:§2)
- H. Li, L. Jiang, N. Dziri, X. Ren, and Y. Choi (2024b)CULTURE-gen: revealing global cultural perception in language models through natural language prompting. In First Conference on Language Modeling. (引用位置:§2)
- P. Mondorf and B. Plank (2024)Beyond accuracy: evaluating the reasoning behavior of large language models – a survey. arXiv:2404.01869. (引用位置:§1)
- A. Mushtaq, R. Naeem, I. Taj, I. Ghaznavi, and J. Qadir (2025)Towards inclusive educational ai: auditing frontier llms for cultural biases through a multiplexity lens. In 2025 IEEE Global Engineering Education Conference (EDUCON), pp. 1–10. (引用位置:§2)
- J. Myung, N. Lee, Y. Zhou, J. Jin, R. A. Putri, D. Antypas, H. Borkakoty, E. Kim, C. Perez-Almendros, A. A. Ayele, V. Gutiérrez-Basulto, Y. Ibáñez-García, H. Lee, S. H. Muhammad, K. Park, A. S. Rzayev, N. White, S. M. Yimam, M. T. Pilehvar, N. Ousidhoum, J. Camacho-Collados, and A. Oh (2024)BLEnD: a benchmark for llms on everyday knowledge in diverse cultures and languages. arXiv preprint arXiv:2406.09948. (引用位置:§1, §2, §4.1)相似文章
当英语改写本地知识:大语言模型中的全球叙事主导
本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。
CroCo:基于自生成的跨语言对比偏好调优
本文介绍了CroCo,一种基于自生成响应的跨语言对比偏好调优方法,表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序,在无需特定语言标注的情况下,提升模型在14种语言上的性能。
AlignCultura:迈向文化对齐的大语言模型?
AlignCultura 推出基于 UNESCO 框架的 CulturaX 数据集与两阶段对齐流程,在 Qwen3-8B 与 DeepSeek-R1-Distill-Qwen-7B 上实现 HHH 指标提升 4–6%,文化失误率降低 18%。
知识超越语言:弥合多语言机器遗忘评估中的鸿沟
本文提出了两个新指标——知识可分性得分(KSS)和知识持久性得分(KPS)——用于评估大语言模型在多语言机器遗忘中的跨语言信息删除,弥补了以往单语言评估协议的不足。
DFKI-MLT在SemEval-2026任务7中:引导多语言模型走向文化知识
本文介绍了用于SemEval-2026任务7(文化意识)的DFKI-MLT系统,该系统利用来自平行FLORES数据的语言向量,对多语言大语言模型应用激活引导。该系统在多项选择题(MCQ)赛道中达到86.96%的准确率,在17支队伍中排名第7,事后分析表明,提升效果对层敏感,且在不同语言-区域对之间存在差异。