前沿LLM在阿拉伯文化和社会语言学知识上的基准测试:一个带有人类专家真值的交叉评估框架

arXiv cs.CL 论文

摘要

本文介绍了一个交叉评估框架,用于在阿拉伯文化和社会语言学知识上对LLM进行基准测试,使用人类专家真值和自动评审。作者贡献了一个针对埃及和伊拉克阿拉伯语的提示-评分标准对数据集,评估了前沿LLM,并发现文化推理仍然是自动评分的主要失败模式。

arXiv:2607.00139v1 公告类型: 新 摘要:人类专家评估的成本是在专业、高风险领域部署语言模型的主要瓶颈。对于阿拉伯社会语言学知识而言,这一点尤为突出:可信的评分不仅需要语言流利度,还需要深度的文化熟悉度,而这是表面指标无法近似实现的。我们通过一个交叉评估框架来解决这个问题,该框架针对两个代表性不足的阿拉伯方言社群:埃及阿拉伯语和伊拉克阿拉伯语。我们贡献了103个经过验证的提示-评分标准对(70个埃及,33个伊拉克;53个文化,50个语言),由母语专家使用惩罚加权评分标准编写和评分,该评分标准区分了正面内容要求和针对答案的负面错误标准。三个前沿LLM作为目标模型(由人类专家对302个独特的提示-响应对进行评分),而五个前沿LLM作为自动评审,强制执行提供者级别的自我评估防护。一个结合平均绝对偏差(MAD)和符号平均误差的双指标方案将定向评分偏差与对称噪声分离。在1,307次评审评估中:GPT-5.4是最可靠的评审(MADj = 10.21个百分点,符号误差 = -1.12%);五个评审中有四个表现出系统性宽容(+2.01%至+6.56%);对所有评审而言,文化任务的评分难度高于语言任务(MAD差距1.83-4.78个百分点);模型在埃及提示上的表现显著优于伊拉克提示。然而,考虑到伊拉克和埃及专家之间的宽容度差异,我们不能将这一差距仅归因于模型知识。因此,我们强调那些不假设不同评分者具有相同宽容度的发现。在所有样本中,隐式文化推理——要求模型模拟母语者的判断而非依赖词汇验证——成为所有评审模型自动评分的主要失败模式。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:35

# 1. 引言
来源:https://arxiv.org/html/2607.00139
![[无标题图片]](https://arxiv.org/html/2607.00139v1/company_logo.png)

**基于专家真值的前沿大语言模型阿拉伯文化与社会语言学知识交叉评估框架**

Sajjad Abdoli1,\*,†111通讯作者: sajjad@perle\.ai, Ghassan Al-Sumaidaee1,\*,†222通讯作者: ghassan\.al-sumaidaee@perle\.ai; ORCID:0000-0002-5536-0252, Ahmad ElShiekh1,\*333ORCID:0009-0001-6837-6202, Clayton W. Taylor1,\*444ORCID:0009-0006-6478-8994, Ahmed Rashad1

1Perle AI\*同等贡献; 作者按姓氏字母排序。†通讯作者 sajjad@perle\.ai, ghassan\.al-sumaidaee@perle\.ai, clayton@perle\.ai, mad\.elshiekh@perle\.ai, ahmed@perle\.ai

###### 摘要

人类专家评估的高昂成本是将语言模型部署到专业化、高重要性领域的主要瓶颈。这一瓶颈在阿拉伯语社会语言学知识方面尤为突出:可信的评分不仅需要语言流利度,还需要深厚的文化熟悉度,这无法通过浅显的黑白指标和训练数据来近似。我们提出了一个交叉评估框架,并将其应用于两个代表性不足的阿拉伯方言社区:埃及阿拉伯语和伊拉克阿拉伯语。我们贡献了一个包含103个经过验证的提示-评分标准对的数据集(70个埃及阿拉伯语和33个伊拉克阿拉伯语;其中53个属于文化类,其余50个属于语言学类),由母语为阿拉伯语的领域专家编写和评分,使用基于惩罚权重的评分标准,区分正面内容要求和针对答案的负面错误标准。三个前沿LLM作为**目标模型**(其回答由人类SME在302个独特的提示-回答对上评分),而五个前沿LLM作为**自动评审者**,根据评分标准对目标模型的回答进行评分,并实施供应商级别的自我评估防护。一个结合平均绝对偏差和符号均值误差的双指标方案将方向性评分偏差与对称噪声分开。在1307次评审评估中:GPT-5.4是最可靠的评审者(MADj=10.21pp,符号误差=-1.12%);五位评审者中有四位表现出系统性宽松(+2.01%到+6.56%);对所有评审者来说,文化任务的评分难度高于语言学任务(MAD差距为1.83–4.78pp);模型在埃及提示上的表现明显优于在伊拉克提示上的输出。然而,考虑到伊拉克和埃及SME在评分模型输出时的宽松度差异,我们不能仅将埃及-伊拉克表现差距归因于模型知识。因此,我们选择强调那些不假设人类评分者具有相同宽松度的发现。在所有样本中,无论子领域或评审者宽松度如何,隐式文化推理——要求模型模拟母语者判断而非依赖词汇验证——成为所有评审模型在自动评分中的主要失败模式。

数学和科学等客观、可验证的领域,专家通常能就“真”与“假”的区分达成共识,因此适合使用二元奖励信号的强化学习。然而,语言以及我们用语言描述的经历,本质上是主观的。因此,主观领域(如信仰体系、文化、语言方言和次方言)无法采用为更“客观”、可验证领域所使用的二元基准测试技术。这需要利用有限的人类领域专家进行模型评估和反馈,这本身又在RL环境中造成了瓶颈。因此,将有助于在更“客观”、可验证领域扩展反馈和奖励信号的技术(如LLM作为评审者)应用于固有主观的领域,对于AI的进步至关重要。LLM作为评审者框架的承诺在于,一个能力强大的前沿模型可以替代人类评估者,大幅降低注释成本。然而,这个承诺中隐含了系统性偏差的风险:过于宽松的模型会低估错误率,误导下游质量决策;过于保守的模型则会抑制对真正正确输出的信号。在以惩罚标准为主的评分标准中,例如在错误比成功更常见的细微文化查询中,宽松度和与人类基线的较大偏差是同一潜在现象的两个方面,而非独立的失败。

在本文中,我们提出以下问题:**哪些前沿LLM能够在评分阿拉伯语社会语言学任务时可靠地替代人类领域专家,以及它们在哪些方面系统性地失败?** 我们通过一个交叉评估框架来回答这个问题。每个前沿模型都既作为**目标**(其回答由人类SME评分,建立黄金标准)又作为**评审者**(它评分所有其他模型的回答,但从不评分自己的回答)。这产生了一个完整的评分矩阵,从中我们推导出评审者级别的可靠性指标,并识别出自动评分与人类评分出现分歧的具体标准类型。

我们的贡献如下:

- 提出一个针对阿拉伯文化和社会语言学评分的交叉评估基准框架,并设有供应商级别的自我评估防护,防止任何模型对来自同一供应商的输出进行评分,无论模型版本如何。
- 贡献了一个包含103个经过验证的提示-评分标准对的数据集,涵盖文化和语言学领域(埃及阿拉伯语:70个提示;伊拉克阿拉伯语:33个提示),由领域专家使用带有明确正面和负面标准的结构化注释平台编写和评分。
- 证明GPT-5.4是最可靠的自动评审者(MADj=10.21pp,近乎零的方向性偏差),而所有其他评审者均表现出系统性宽松偏差,且对所有五位评审者而言,文化任务的评分难度均高于语言学任务。
- 提出符号均值误差指标,将方向性评分偏差(宽松 vs. 保守)与对称噪声分离,从而能够对每个评审模型的失败模式进行更可操作的描述。

本文结构如下:第2节(https://arxiv.org/html/2607.00139#S2)将本研究置于LLM作为评审者的文献中。第3节(https://arxiv.org/html/2607.00139#S3)描述了数据集和注释平台。第4节(https://arxiv.org/html/2607.00139#S4)正式定义了交叉评估框架和指标。第5节(https://arxiv.org/html/2607.00139#S5)报告结果。第6节(https://arxiv.org/html/2607.00139#S6)解释研究发现。第7节(https://arxiv.org/html/2607.00139#S7)进行总结。

## 2. 背景与动机

### 2.1. 文化特定LLM的挑战

在文化敏感的非西方环境中部署大型语言模型暴露了一个根本性的紧张关系:语言流利度和文化一致性是不同的能力,而当代LLM系统性地将它们混为一谈。Hershcovich等人[6]首先正式化了这种区分,表明说话者不仅因语言而异,还因文化特定的“关于性”、共同背景、价值观和语言语域而异——而标准NLP评估工具(主要针对英语设计)在很大程度上未能捕捉这些维度。Adilazuarda等人[1]调查了90多篇后续论文,发现**没有一篇**明确地定义“文化”;相反,它们通过代表选定文化方面的代理数据集来探测模型,将语义领域和实际应用效果基本上留作未充分研究的领域。

越来越多的研究表明,文化错位的根本原因在于训练流程的上游。Sahu等人[17]将其诊断为**文化数据漏斗**:在微调、对齐和推理阶段,显式文化信号急剧下降,而地理集中的、任务专业化的数据占据主导地位。他们的分析基于一个涵盖194种语言的560万样本文化标注语料库,证实了多语言性增强了文化知识的地理多样性,但并不能保证平衡的代表性。Agarwal等人[2]评估了印度本土和全球LLM在印度全国代表性调查和社区来源QA上的表现,发现区域LLM在适应当地规范方面并不比全球模型更好,并将失败归因于稀缺的基于文化背景的预训练数据,同时证明提示工程和区域微调无法恢复对齐,甚至可能降低已有的文化知识。

多语言-多文化差距在其他语系中同样显著。Rystrøm等人[16]将LLM回答分布与丹麦语、荷兰语、英语和葡萄牙语的世界价值观调查人口数据进行比较,发现各模型家族中,多语言能力与文化一致性之间没有一致的关系,并确定自我一致性(而非语言能力)是多文化一致性的更强预测因子。LLM中文化误表征的更广泛图景在Shi等人[18]的调查中得到概述,他们构建了基于1.2万TikTok和1.1万Reddit自我叙述的CultureBank,提供了一个社区驱动的文化知识库,并表明在该资源上进行微调可提升零样本设置下下游文化任务的性能。

对于阿拉伯语世界而言,挑战因现代标准阿拉伯语与口语变体之间的双言现象、22个阿拉伯国家(超过4.5亿使用者)之间的方言差异,以及机器翻译而非母语创作的训练数据的大量存在而进一步加剧。Alwajih等人[3]认为,许多阿拉伯语LLM尽管实现了语言流利度,但由于它们是在机器翻译数据集上训练并在通用NLP任务上评估,因此在很大程度上忽视了特定国家的文化能力。他们的PalmX 2025共享任务为阿拉伯语和伊斯兰领域提供了第一个标准化文化能力基准。Qian等人[14]引入了CamelEval,一个用于文化一致性阿拉伯语模型的LLM作为评审者的基准,并展示了阿拉伯语特定指令遵循质量与真正文化理解之间的系统性差距。Zhang等人[20]提出了CultureManager,一个用于任务特定文化对齐的模块化流水线,将多文化知识存储在不同的适配器中以避免跨文化干扰,并表明文化规范与手头任务的相关性以及文化之间的干扰是不同的失败模式,需要架构解决方案而非推理时的权宜之计。Oh等人[12]进一步论证,文化假设甚至渗透到表面上中立的评估中,并呼吁在所有基准设计中有意进行文化评估,系统地审视这些假设,而不仅仅是在显式文化任务中。

### 2.2. 评估LLM:方法、基准与文化维度

LLM输出的评估已演变为三大范式:**直接偏好评估**(评审者对单个输出进行数值评分)、**成对排序**(评审者从两个回答中选择更好者)以及**基于评分标准的评估**(质量被分解为可独立评估的二元标准)。Zheng等人[23,24]确立了LLM作为评审者作为人类注释的可扩展替代方案,显示出与人类在指令遵循和对话质量方面的偏好高度相关。然而,在所有三种范式中都已记录了系统性偏差:位置偏差(偏好某些位置的答案)、冗长偏差(偏好更长的回答)和自我增强偏差(偏好来自同一模型家族的输出)[23]。Fu和Liu[4]表明,这些偏差在多语言环境中进一步放大:LLM作为评审者的可靠性在非英语语言中大幅下降,这促使了本工作中使用母语为母语的SME黄金标准。

文化维度为每种评估范式引入了进一步的复杂性。Parrish等人[13]建立了BBQ,一个包含58,492个手工构建示例的偏差基准,涵盖九个以美国为基准的社会维度,表明模型在信息不足的上下文中依赖刻板印象,并在正确答案与社会偏见一致时保持准确性优势。BBQ以美国为中心的框架体现了Oh等人[12]的批评,即评估设计本身编码了文化假设。Huang和Yang[7]将文化变异操作化为自然语言推理中的标签不一致性,引入了CALI,一个由美国和文化群体标注的2700样本数据集,并表明模型默认使用文化通用标签,而非表现出真正的文化偏见——这是一个聚合指标无法捕捉的细微差别。

近年来,文化基准设计取得了显著进展。Koto等人[11]引入了BLEnD,一个手工制作的基准,包含来自13个语言16个国家的52,600个日常文化QA对,并记录了在线代表较多与较少文化之间高达57.34个百分点的性能差距——这是数据存在与文化性能之间最强的定量联系。Rao等人[15]引入了NormAd,一个分层框架,涵盖来自75个国家的2600个社交礼仪场景,并发现即使将相关的社会规范作为上下文提供,最好的LLM准确率也低于82%,而人类超过95%——对于全球南方文化而言,这一差距显著扩大。Zhang等人[21]引入了CultureScope,一个三层维度模式(制度规范;行为模式;核心价值观与社会结构),涵盖140个维度,能够为任何语言自动构建特定文化的评估集,并确认多语言数据并不一定能增强文化理解。Hayes Zhang等人[5]证明人类偏好比模型输出更多样化,并引入了社区对齐数据集,包含来自五个国家的233,319个比较,确立了候选回答的同质性阻止了奖励模型学习多样化和未被充分满足的偏好。

在基于评分标准的评估的特定背景下,Kim等人[8]开创了Prometheus,一个完全开源的大语言模型评估器,在1000个细粒度评分标准上训练而成。

相似文章

SPLIT:英乌克兰跨语言同理心与文化根基的LLM响应评估

arXiv cs.CL

介绍SPLIT,一个包含500条提示的基准测试,用于评估大型语言模型在英语和乌克兰语中的跨语言同理心和文化根基。研究发现,Gemini-2.5-Flash和LLaMA-3.3-70B-Instruct在处理乌克兰语时性能下降,而DeepSeek-V3保持稳定,且人类与AI评估者在文化维度上的一致性较弱。