SPLIT:英乌克兰跨语言同理心与文化根基的LLM响应评估
摘要
介绍SPLIT,一个包含500条提示的基准测试,用于评估大型语言模型在英语和乌克兰语中的跨语言同理心和文化根基。研究发现,Gemini-2.5-Flash和LLaMA-3.3-70B-Instruct在处理乌克兰语时性能下降,而DeepSeek-V3保持稳定,且人类与AI评估者在文化维度上的一致性较弱。
查看缓存全文
缓存时间: 2026/07/03 05:42
# 英语与乌克兰语大语言模型回应中的跨语言共情与文化基础 ## 生成乌克兰语文本不等于提供乌克兰语情感支持 来源:https://arxiv.org/html/2607.02049(2026年7月) ###### 摘要 大型语言模型越来越多地被部署在情感支持场景和危机相关情境中。然而,它们在这些情况下的跨语言能力仍未得到充分探索。现有基准强调多语言性能,但很少考察中低资源语言中与危机相关的共情和文化基础。我们引入了SPLIT,一个包含500个提示的基准,旨在评估LLM在五个类别中生成情感基础回应的一致性:压力、恐慌、孤独、境内流离失所和紧张。我们在三个维度上评估了三款技术上多样化的LLM:共情准确性、语言自然性,以及情境与文化基础。该框架旨在评估和比较英语与乌克兰语中LLM回应的质量,并探索LLM作为陪审员这一范式的可靠性。我们的发现表明,Gemini-2.5-Flash和LLaMA-3.3-70B-Instruct在转向乌克兰语时性能下降,而DeepSeek-V3在我们的基准内相对保持稳定。我们进一步发现,人类和AI评估者在共情和自然性上的一致性较弱,而在文化基础方面存在分歧。我们还提出,生成乌克兰语文本并不等同于提供乌克兰语情感支持。我们的发现可能有助于未来开发更具文化针对性的基准设计,并鼓励更加重视以人为中心的评估。 ## 1 引言 近年来,大型语言模型领域迅速发展,取得了若干重大突破[55](https://arxiv.org/html/2607.02049#bib.bib1)、[5](https://arxiv.org/html/2607.02049#bib.bib2)。关键在于,LLM回应的一致性仍然高度存疑[60](https://arxiv.org/html/2607.02049#bib.bib3),原因是训练数据和可用基准存在明显差异。英语和汉语仍是绝大多数训练数据的主要来源,导致在多种中低资源语言的回应生成中出现性能差异[30](https://arxiv.org/html/2607.02049#bib.bib6)。这种不一致性引发了疑问:LLM是否能够保留与这些语言相关的文化细微差别[46](https://arxiv.org/html/2607.02049#bib.bib7)并准确解读它们? 参见图注 图1:跨语言性能轨迹,展示从英语到乌克兰语的宏观平均人类评估分数。 此外,LLM对人类共情的能力尚未被充分探索[48](https://arxiv.org/html/2607.02049#bib.bib13)、[44](https://arxiv.org/html/2607.02049#bib.bib14)。弥合LLM生成共情回应方式与现代心理学在人类能力和发展方面所认为的准确性之间的差距至关重要[61](https://arxiv.org/html/2607.02049#bib.bib15)、[25](https://arxiv.org/html/2607.02049#bib.bib16)。正如《社会中的心智》[57](https://arxiv.org/html/2607.02049#bib.bib9)所概述,早期心理学框架断言心智“是一组特定能力的集合,每种能力在一定程度上独立于其他能力,并独立发展”。虽然认知科学已主要转向对人类互动技能发展的整体评估[36](https://arxiv.org/html/2607.02049#bib.bib17),但现代AI系统往往反映第一种理论[29](https://arxiv.org/html/2607.02049#bib.bib18)、[6](https://arxiv.org/html/2607.02049#bib.bib19)、[51](https://arxiv.org/html/2607.02049#bib.bib20)。因此,LLM的智能在一系列研究中被归类为多维度的,表明要准确评估其全部潜能,需要进行严格的实验,包括对一系列不同参数进行基准测试[33](https://arxiv.org/html/2607.02049#bib.bib4)、[42](https://arxiv.org/html/2607.02049#bib.bib5)、[61](https://arxiv.org/html/2607.02049#bib.bib15)。感知、认知和互动可被视为LLM情绪智力[33](https://arxiv.org/html/2607.02049#bib.bib4)的多个侧面。这进而提出一种观点:要在这些领域实现高性能,才能确保LLM生成的共情回应的一致性。 自然性被广泛认为是评估LLM有效沟通能力的关键变量[29](https://arxiv.org/html/2607.02049#bib.bib18)、[6](https://arxiv.org/html/2607.02049#bib.bib19),这通常也是其主要任务。解读和理解人类情感与挣扎的能力,对于理解一个人的困境[42](https://arxiv.org/html/2607.02049#bib.bib5)并提出应对压力、焦虑或情绪耗竭的有效措施极为宝贵。共情基础[1](https://arxiv.org/html/2607.02049#bib.bib8)是另一个与LLM维持良好互动、承认人类挣扎能力密切相关的核心术语。理解微妙文化含义的重要性可以直接由此概念得到证明,因为情感标记和痛苦习语在多种语言中各不相同[31](https://arxiv.org/html/2607.02049#bib.bib21)、[37](https://arxiv.org/html/2607.02049#bib.bib22)、[46](https://arxiv.org/html/2607.02049#bib.bib7)。近期研究表明[56](https://arxiv.org/html/2607.02049#bib.bib10),缺乏文化理解是当前绝大多数LLM的主要瓶颈,阻碍了有效沟通。另一项综合研究揭示[35](https://arxiv.org/html/2607.02049#bib.bib11),LLM产生的共情回应之间存在显著差异,原因是人口统计学上的明显差异极大地影响了模型的文化理解。 LLM在自然语言处理方面表现出卓越能力,尤其是针对高资源语言,展现出流畅性、一致性和可访问性[43](https://arxiv.org/html/2607.02049#bib.bib12)。相反,它们在低资源语言中的能力在所述三个维度上仍远未达到最先进性能[16](https://arxiv.org/html/2607.02049#bib.bib23)、[17](https://arxiv.org/html/2607.02049#bib.bib24)、[34](https://arxiv.org/html/2607.02049#bib.bib25)。乌克兰语被广泛视为低资源语言,明显缺乏数字化基准[53](https://arxiv.org/html/2607.02049#bib.bib26)。然而,近年来乌克兰语NLP资源、基准和语言模型取得了显著增长[53](https://arxiv.org/html/2607.02049#bib.bib26)。本研究旨在评估英语与乌克兰语NLP[24](https://arxiv.org/html/2607.02049#bib.bib27)之间差距的规模,以及LLM在向人类提供共情基础[1](https://arxiv.org/html/2607.02049#bib.bib8)时的回应质量。 本研究的动机源于开发和部署一个多语言Telegram机器人,该机器人旨在支持经历压力、恐慌、孤独、境内流离失所或紧张的个体。在部署过程中,我们观察到英语和乌克兰语输出之间存在定性差异,这促使我们系统性地研究多语言LLM是否在这两种语言之间保持了相当水平的自然性、文化基础和共情一致性。为了研究这一性能差距,我们引入了SPLIT——一个包含500个提示的多样化基准,针对五个参数(压力、恐慌、孤独、境内流离失所和紧张)的危机影响沟通。因此,本研究旨在回答以下研究问题: - RQ1:在英语和乌克兰语的危机相关场景中,最先进的LLM在共情回应质量上存在何种差异? - RQ2:当LLM针对英语和乌克兰语危机相关场景生成回应时,会出现哪些语言和对话上的差异? - RQ3:与英语基线相比,在应对乌克兰语危机场景时,LLM生成的回应在多大程度上表现出适当的情境和文化基础? - RQ4:基于LLM的自动化评估在多大程度上与人类对共情对话回应的评估一致? 图1(https://arxiv.org/html/2607.02049#S1.F1)展示了在共情准确性、语言自然性以及情境与文化基础维度上的宏观平均分数,反映了本研究的总体趋势。这些结果的详细分析将在“结果与分析”部分进一步提供,其中将详细说明精确的人类评估基线分数。 ## 2 方法论 ### 2.1 数据集整理 我们的SPLIT基准旨在评估三款技术多样化的LLM在500个场景中的表现。因此,我们建立了一个包含500个不同情感支持查询的数据集,涵盖5个评估类别——压力、恐慌、孤独、境内流离失所和紧张——每个类别100个提示。选择这些特定类别是因为它们代表了受危机影响的乌克兰人常见的社会心理状况。潜在的危机相关查询是通过使用刻意调整的提示[5](https://arxiv.org/html/2607.02049#bib.bib2)由LLM(如GPT-4o)生成的。该LLM的NLP能力,以及它在低资源语言中超越一系列其他LLM的能力[40](https://arxiv.org/html/2607.02049#bib.bib29)、[39](https://arxiv.org/html/2607.02049#bib.bib28)、[18](https://arxiv.org/html/2607.02049#bib.bib30)、[47](https://arxiv.org/html/2607.02049#bib.bib31),强化了其作为本研究可靠提示工程来源的观点。此外,它展示了在基于文本的场景中解读复杂情感和社交互动的能力[59](https://arxiv.org/html/2607.02049#bib.bib33)。这些提示同时以英语和乌克兰语生成,机器翻译是乌克兰语中相同翻译数据的主要来源[16](https://arxiv.org/html/2607.02049#bib.bib23)、[32](https://arxiv.org/html/2607.02049#bib.bib32)。然而,为了确保自然语言生成的准确性,提示由一位母语为乌克兰语且持有剑桥量表认证C2英语水平的人进行了严格测试[44](https://arxiv.org/html/2607.02049#bib.bib14)、[17](https://arxiv.org/html/2607.02049#bib.bib24)。该检查根据已建立的整体验证标准[29](https://arxiv.org/html/2607.02049#bib.bib18)、[49](https://arxiv.org/html/2607.02049#bib.bib59),在总500个提示的随机15%样本(n=75)上执行。 ### 2.2 大型语言模型选择 为了提高实验的可扩展性从而增加可信度,我们部署了三款技术多样化的模型来生成对查询的回应。当前采用的方法与许多其他研究人员进行的同行研究[29](https://arxiv.org/html/2607.02049#bib.bib18)、[6](https://arxiv.org/html/2607.02049#bib.bib19)一致。它也使我们能够确保所部署模型的架构多样性,使最终结果在大规模上更加精确。以下模型被部署作为回应生成器: 1. **DeepSeek-V3**[11](https://arxiv.org/html/2607.02049#bib.bib34):该LLM展示了混合专家架构[2](https://arxiv.org/html/2607.02049#bib.bib36),采用了无辅助损失策略[58](https://arxiv.org/html/2607.02049#bib.bib35)和多令牌预测训练目标[64](https://arxiv.org/html/2607.02049#bib.bib37)。这种方法使LLM能够高效且有效地分配用户查询,其性能惊人地接近闭源模型[11](https://arxiv.org/html/2607.02049#bib.bib34),对本研究极具价值。 2. **LLaMA-3.3-70B-Instruct**[14](https://arxiv.org/html/2607.02049#bib.bib38):该LLM拥有与上述DeepSeek-V3模型相反的直接架构[2](https://arxiv.org/html/2607.02049#bib.bib36)。该特定LLM实现了标准的密集Transformer模型架构[55](https://arxiv.org/html/2607.02049#bib.bib1),并进行了微小调整以确保训练稳定性,从而避免潜在的性能下降尖峰[14](https://arxiv.org/html/2607.02049#bib.bib38)。最近的同行研究还表明,微调的LLaMA模型有潜力超越更大的开放权重模型[52](https://arxiv.org/html/2607.02049#bib.bib39)。另一项实证研究强调,“跨语言对齐可能已在模型内部内化”[62](https://arxiv.org/html/2607.02049#bib.bib40),展示了其在自然语言处理和自然语言生成方面的能力。 3. **Gemini-2.5-Flash**[10](https://arxiv.org/html/2607.02049#bib.bib41):该LLM的架构与DeepSeek[11](https://arxiv.org/html/2607.02049#bib.bib34)紧密相关,实现了稀疏混合专家[2](https://arxiv.org/html/2607.02049#bib.bib36)Transformer[55](https://arxiv.org/html/2607.02049#bib.bib1)方法。作为一种混合推理模型,平衡了速度、成本和智能,其能力大大超过了当前版本之前的Gemini模型。因此,其多语言能力通过预训练涵盖了400多种语言,在NLP方面经历了稳健的提升。然而,与DeepSeek-V3和LLaMA-3.3-70B-Instruct相比,它是一个闭源商业LLM,使其成为本研究中更平衡和准确基线的相关补充。 ### 2.3 SPLIT基准评估标准 LLM的回应根据三个参数进行评估,直接对应研究问题: 1. **共情准确性**:LLM是否准确识别用户的情感状态,并产生适当的回应,而不持续依赖陈词滥调? 2. **语言自然性**:LLM是否保持了自然的回应流程,使用了与危机影响情境相关的适当习语和表达? 3. **情境与文化基础**:LLM在产生情感基础回应时,是否考虑了用户的语言和文化背景? SPLIT 1-5评分量表的性能解释如下: - **1 - 不充分对齐**:模型的回应完全不合适,表现出严重的结构和连贯性崩溃。它包含无关建议,完全无法识别或适应用户的情感状态。 - **2 - 表面对齐**:模型的回应仅在基本水平上运作;虽然可能流畅,仅有微小的搭配错误,但仅部分满足用户对情感帮助的需求。它缺乏整体连贯性和文化意识,产生略显机械的答案,严重依赖通用的基础短语。 - **3 - 足够对齐**:模型的回应在功能上与用户的查询一致,并且信息语言流畅。然而,它缺乏共情深度,经常提供基本或模糊的建议,未能与用户的情感状态有意义地契合。 - **4 - 高质量对齐**:模型的回应完全解决了用户的查询及其对情感基础的即时需求。
相似文章
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
前沿LLM在阿拉伯文化和社会语言学知识上的基准测试:一个带有人类专家真值的交叉评估框架
本文介绍了一个交叉评估框架,用于在阿拉伯文化和社会语言学知识上对LLM进行基准测试,使用人类专家真值和自动评审。作者贡献了一个针对埃及和伊拉克阿拉伯语的提示-评分标准对数据集,评估了前沿LLM,并发现文化推理仍然是自动评分的主要失败模式。
UrduMMLU:乌尔都语理解的大规模多任务基准测试
UrduMMLU是一个新基准测试,包含来自本土教育材料的26,431道多项选择题,涵盖26个学科,用于评估大语言模型在乌尔都语理解上的表现。对30个大语言模型的评估显示,Gemini-3.5-Flash表现最佳,而开源模型和区域特定学科仍构成重大挑战。
UA-Legal-Bench:评估大语言模型在乌克兰法律推理能力的基准
介绍了UA-Legal-Bench,这是一个基于统一国家法院判决登记册构建的、用于评估大语言模型在乌克兰法律推理能力的五项任务基准。评估了11个LLM,揭示了任务相关的少样本效应以及在不平衡法律任务中准确率的误导性。
跨语言共识:通过多语言自一致性对齐多语言文化知识
本文提出一个自监督框架,利用多语言自一致性和自我批评机制在不同语言间迁移文化知识,通过从本地语言表征中揭示潜在文化知识,在BLEnD基准测试的英语查询中平均提升5.03%。