超越选择题:带有方言变体的开放式阿拉伯文化问答基准

arXiv cs.CL 论文

摘要

本文介绍了首个跨越现代标准阿拉伯语和多种方言的平行阿拉伯文化问答基准,将选择题转换为开放式问题,并利用思维链推理评估大语言模型,以解决文化知识和方言特定知识的缺陷。

arXiv:2510.24328v2 公告类型:替换 摘要:大语言模型(LLMs)越来越多地被用于回答日常问题,但其在文化背景知识和方言内容上的表现在不同语言中仍不均衡。我们提出了一种综合方法,该方法(i)将现代标准阿拉伯语(MSA)选择题(MCQs)翻译为英语和多种阿拉伯方言,(ii)将其转换为开放式问题(OEQs),(iii)在选择题和开放式问题两种设置下对一系列零样本和微调的大语言模型进行基准测试,以及(iv)生成思维链(CoT)推理来微调模型以实现循序渐进的推理。使用该方法,我们扩展了一个现有数据集,其中问答在多个语言变体之间平行对齐,据我们所知,这是首个此类数据集。我们使用开源和闭源模型进行了广泛的实验。我们的发现表明:(i)模型在阿拉伯方言上表现欠佳,揭示了文化背景知识和方言特定知识的持续缺陷;(ii)阿拉伯中心的模型在选择题上表现良好但在开放式问题上举步维艰;以及(iii)思维链改进了判断的正确性,但产生了混合的n元语法指标。开发的数据集将公开发布,以支持进一步的文化和语言包容性评估研究。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:31

# 超越多选题:阿拉伯文化开放式问答基准与方言变体

来源:https://arxiv.org/html/2510.24328

###### 摘要

大型语言模型(LLMs)越来越多地被用于回答日常问题,但在多种语言及其变体中,它们在文化根植内容和方言内容上的表现仍然有限。我们提出了一种综合方法,该方法(i)将现代标准阿拉伯语(MSA)多选题(MCQs)翻译成英语和多种阿拉伯方言,(ii)将其转换为开放式问题(OEQs),(iii)在MCQ和OEQ两种设置下对一系列零样本和微调LLMs进行基准测试,(iv)生成思维链(CoT)理由来微调模型以进行逐步推理。使用这种方法,我们扩展了一个现有数据集,其中QAs在语言变体间平行对齐,据我们所知,这是首创。结果测试集的大部分通过目标人工注释和母语使用者后期编辑进行了进一步验证。我们使用开源和闭源模型进行了广泛的实验。我们的发现表明(i)模型在阿拉伯方言上表现不佳,在文化根植和方言特定知识上存在持续的差距;(ii)以阿拉伯语为中心的模型在MCQ上表现良好但在OEQ上表现困难;以及(iii)CoT改进了判断的正确性,同时产生了混合的n元语法指标。

关键词:文化知识;日常知识、开放式问题、思维链

## 1. 引言

文化信息是人类身份、行为和社会互动的基础,涵盖共同的信念、价值观、习俗、语言、传统和集体实践。在当今紧密耦合的信息通信生态系统中,数亿用户与LLMs交互以进行日常查询,经常询问本地规范、假日、美食或礼仪,其中文化根植的解释至关重要Pawaret al.(2025);Hasanet al.(2025)。然而,尽管多语言理解和推理取得了快速进展,LLM性能在不同语言、方言和文化特定领域仍然不均匀(Weiet al.,2022;Muennighoffet al.,2023)。这个问题对阿拉伯语特别突出,其中MSA与众多地区方言共存,这些方言在音韵、形态、词汇和用法上有所不同(Alwajihet al.,2025a;Sadallahet al.,2025)。除了建模挑战外,广泛使用的MCQ评估可以通过启用标签偏差或选项猜测等表面答案选择策略来掩盖推理缺陷,使公平的跨语言和跨格式比较复杂化(Ramanet al.,2025;Liet al.,2024b)。

参见图1

**图1:以两种格式显示的示例QA实例:多选题(MCQ)和开放式问题(OEQ)。括号中的标志表示使用各种方言的代表性国家。**

一个核心的开放问题是如何*衡量*和*改进* LLM理解和回应此类文化嵌入查询的能力,特别是在具有实质性方言变体的多语言设置中。另一个值得注意的方面是,由于其简单性、自动评分和结构化答案空间,MCQs长期以来一直是评估LLMs中QA性能的主导格式Myrzakhanet al.(2024)。然而,模型有时可以利用测试格式而不是真正理解问题,导致一种选择偏差形式,例如,始终倾向于某些选项(例如,总是选择"A")而不管内容。为了解决这些挑战,平行的努力已经出现,以开发文化对齐的语言模型Wanget al.(2023)并实现其在低计算环境中的高效部署Huet al.(2022)。同时,新的文化相关数据集、目标基准和评估协议开始实现日常文化知识测量的可操作化Myunget al.(2024);Liet al.(2024a);Mousiet al.(2025);Alamet al.(2025a,b)。总体而言,这些趋势表明需要新的资源、评估和模型,这些资源、评估和模型植根于代表性不足的方言变体和文化语境化内容。

为了阐明挑战,我们介绍了一种为代表性不足的语言变体开发新资源的综合方法。从现有的MSA MCQ数据集Alwajihet al.(2025b)开始,我们执行以下步骤:(i)将问题翻译成多种阿拉伯方言和英语,然后进行手动后期编辑(ii)将MCQs转换为需要自由形式答案的OEQ,(iii)评估一系列零样本和微调LLMs在生成的基准上,以及(iv)创建和微调模型在思维链(CoT)注释上以鼓励OEQ的显式推理。MCQ、OEQ和CoT的示例如图1所示。我们的方法允许我们隔离和研究问题格式、语言变体和推理监督对模型性能的影响。我们发现OEQ设置比MCQ更具挑战性,特别是在方言阿拉伯语中。

我们的贡献如下:

- • 我们通过将MSA MCQs翻译成英语和阿拉伯方言来构造多语言和多方言QA数据集ArabicCulturalQA。该数据集可供研究使用。QCRI/ArabicCulturalQA
- • 我们在所有语言变体中将数据集转换为OEQs,可以对模型知识进行更严格的评估。
- • 测试集的大部分由母语使用者进行人工注释:方言MCQs进行了后期编辑,从MSA MCQs到MSA OEQs的转换经过手动审查以确保语言和语义保真度。
- • 我们在MCQ和OEQ两种设置下对一系列零样本和微调LLMs进行了基准测试。
- • 我们为OEQ生成思维链(CoT)注释并微调模型。这项工作代表了统一方言阿拉伯语QA、开放式推理和CoT微调在单一基准中的首次努力,为LLMs在文化丰富、语言多样的数据上的性能提供了新见解。

## 2. 相关工作

### 2.1. LLMs的通用能力

LLMs在广泛的NLP任务中表现出强大的泛化能力,包括文本生成、翻译、摘要和推理Abdelaliet al.(2024)。在足够的规模下,LLMs表现出新兴能力,例如多步推理和常识推理Bubecket al.(2023);Weiet al.(2022)。像少样本和思维链(CoT)这样的提示技术显著增强了推理繁重任务的性能Kojimaet al.(2022);Weiet al.(2022)。然而,大多数评估集中在英语或高资源语言上。性能通常在形态丰富或低资源语言(如阿拉伯语)上下降,特别是在方言背景下Mousiet al.(2025);Muennighoffet al.(2023)。

### 2.2. 文化和日常知识

最近的研究强调了LLMs在捕捉文化根植、日常知识方面的局限性。Myunget al.(2024)引入了BLEnD,一个包含13种语言和16个地区的52.6K QA对的多语言基准,旨在评估模型对日常生活知识的理解。类似地,Hasanet al.(2025)开发了MultiNativQA,包含64K QA对,涵盖七种语言的九个位置。在这些研究中,结果一致表明LLMs在反映代表性不足文化的问题上表现不佳,通常反映西方中心的规范。

在阿拉伯语背景下,Sadallahet al.(2025)提出了ArabCulture,一个3.5K基于MSA的MCQs基准,由来自13个阿拉伯国家的母语使用者策划,以评估文化特定的常识推理。同样,Alwajihet al.(2025a)引入了Palm,一个包含所有22个阿拉伯国家的方言丰富的数据集。

### 2.3. MCQ到OEQ

许多评估基准使用MCQs是因为它们允许直接的自动评分,其中模型选择一个选项(A/B/C/D),可以直接与正确答案进行比较。然而,最近的研究表明这种格式可能会引入人为的性能收益并掩盖模型的实际推理能力Molfeseet al.(2025);Chandaket al.(2025);Myrzakhanet al.(2024)。例如,LLMs经常表现出选择偏差,由于训练工件而倾向于某些选项(例如,始终选择"A")。为了缓解这些问题,几部作品提议将MCQs转换为需要模型在没有预定义选择的情况下生成答案的OEQsMyrzakhanet al.(2024)。这强制依赖内部知识和推理而不是消除或猜测。然而,这种转换引入了新的挑战:一些MCQs在移除选项后变得模糊,其他MCQs可能会产生多个有效答案,除非小心重新表述。此外,评估自由形式的回应本质上更难,因为正确性取决于将生成的文本与可能在措辞上有所不同的黄金答案进行比较。

先前的工作通过使用基于LLM的评估管道(例如GPT-4)根据人类参考文献判断开放式答案来解决这个问题,具有高可靠性Myrzakhanet al.(2024)。总体而言,从MCQ转变为开放式格式有望揭示更深层次的模型理解,但它需要仔细的问题选择和强大的评估协议。

### 2.4. 思维链(CoT)推理

CoT提示已成为增强LLMs推理能力的强大技术。与直接产生答案不同,模型被鼓励在达成最终结论之前生成明确的逐步推理路径Weiet al.(2022)。通过表达这些中间步骤,模型可以将复杂问题分解为可管理的组件,从而导致准确性的实质性增益。值得注意的是,即使没有任务特定的培训,简单地在提示前添加"让我们一步步思考"也可以在足够大的模型中诱发这种行为,这种方法称为零样本CoTQinet al.(2023)。这种简单的提示策略在广泛的推理任务中取得了显著的改进,包括数学问题解决和常识推理。此外,Qinet al.(2023)引入了自一致性机制,其中模型生成多个推理链并选择最频繁的答案,进一步增强性能。虽然大多数现有研究强调推理时间CoT,但最近的研究已经探索了CoT微调,将推理技能转移到更小或多语言模型Puertoet al.(2025)。然而,据我们所知,没有先前的工作将CoT微调应用于阿拉伯语开放式QA数据集,特别是那些涵盖方言变体的数据集,这构成了我们研究的关键贡献。

## 3. 数据集

我们的数据ArabicCulturalQA基于PalmX 2025 - 常识文化评估(PalmX-GC)数据集,该数据集评估模型对阿拉伯文化的理解,包括习俗、历史、地理、艺术、美食、著名人物和22个阿拉伯国家的日常生活。所有问题和答案都用MSA编写并经过手动验证,为文化根植QA提供了高质量的基准Alwajihet al.(2025b)。该数据集包括2000个训练、500个开发和2000个测试示例,全部采用MCQ格式。我们将PalmX-GC用作创建方言MCQ和OEQ变体的基础。图2说明了数据集构造过程,其中我们使用LLMs(特别是GPT-4.1)进行翻译和数据转换。我们基于模型的可靠性和我们的付费访问选择了这个模型。

参见图2

**图2:数据集构造过程的管道。**

### 3.1. 方言MCQ

为了扩大MSA之外的文化和语言覆盖范围,我们使用GPT-4.1将PalmX翻译成四种阿拉伯方言(如埃及方言、黎凡特方言、海湾方言和马格里布方言)以及英语,然后进行质量检查。我们选择这些方言的原因是(i)它们覆盖阿拉伯世界最大的使用者人口和最广泛的地理范围,(ii)捕捉阿拉伯方言连续体的主要点,以及(iii)代表日常交流和在线话语的主要语言。包括英语有两个目的:它为跨语言比较提供了共享参考基准,有助于区分语言建模和文化特定知识,并反映了真实使用情况,用户经常用英语询问关于阿拉伯背景的文化根植问题。这种设计允许我们探测(a)格式敏感性(MCQ→OEQ),(b)方言敏感性(MSA与地区变体),以及(c)在单一受控基准内的跨语言迁移(阿拉伯语↔英语)。

我们采用受控提示将每个MSA MCQ翻译成四种方言和英语。提示明确强制了语义等价性,同时允许词汇和风格适应方言规范。这种方法确保了方言措辞保留了原始问题的意图,而不会导致与其MSA对应物的任何语义漂移。

### 3.2. MCQ到OEQ

我们使用GPT-4.1将MSA MCQs转换为OEQs。每个MCQ通过改造原始问题和其正确选项为单个自包含的QA实例而被转换。剩余的干扰项仅用于指导上下文理解,但从最终提示中排除。我们筛除了转换在结构上不可行的QA项,例如依赖于可见替代方案的问题,以避免形成不合理的或未充分指定的开放式形式。这个过程确保了生成的OEQs

相似文章

HalluScore:大语言模型幻觉问答基准

arXiv cs.CL

介绍HalluScore,一个结构化的阿拉伯语问答基准,用于评估大语言模型在不同推理难度、知识领域和文化背景下的幻觉。包含827个带有验证证据和注释的问题,已在17个大语言模型上测试。

介绍 IndQA

OpenAI Blog

OpenAI 推出了 IndQA,这是一个包含 2,278 个问题的新基准,涵盖 12 种印度语言和 10 个文化领域,旨在评估 AI 模型对现有基准无法捕捉的文化细微差别和推理密集型任务的理解能力。IndQA 由 261 位领域专家创建,针对 MMMLU 等现有多语言基准的饱和问题,重点关注真实世界的文化理解,而不是翻译或多选题任务。

UrduMMLU:乌尔都语理解的大规模多任务基准测试

arXiv cs.CL

UrduMMLU是一个新基准测试,包含来自本土教育材料的26,431道多项选择题,涵盖26个学科,用于评估大语言模型在乌尔都语理解上的表现。对30个大语言模型的评估显示,Gemini-3.5-Flash表现最佳,而开源模型和区域特定学科仍构成重大挑战。

QIMMA قِمّة ⛰: 以质量为核心的阿拉伯语 LLM 排行榜

Hugging Face Blog

QIMMA 是由 TII UAE 推出的全新以质量为核心的阿拉伯语 LLM 排行榜,它在评估前对基准测试进行验证,以确保性能测量的准确性。该排行榜通过严格的多阶段验证流程,解决了现有阿拉伯语 NLP 基准测试中存在的系统性质量问题。