CulturALL：评测大模型多语言多文化能力的实景基准

arXiv cs.CL 2026/04/22 04:00 论文

摘要

CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准，用于检验大模型在真实文化场景下的表现；目前最佳模型仅得 44.48%，提升空间巨大。

arXiv:2604.19262v1 公告类型：新增摘要：大语言模型（LLM）已在全球范围部署，催生大量评测其多语言与多文化能力的基准。然而，这些基准多聚焦通用语言理解或表面文化问答，忽视了对“实景任务”——模型需在真实、情境丰富的场景中推理——的评估。为此，我们推出 CulturALL，一套全面且具有挑战性的基准，用于检验 LLM 在实景任务中的多语言多文化能力。CulturALL 采用“人—AI”协同构建：专家标注者确保题目难度适中、事实准确，LLM 则减轻人工负担。通过整合多元数据源，CulturALL 实现场景全覆盖；每道题均精心设计，难度较高，整体极具挑战性。CulturALL 共含 2,610 条样本，覆盖 51 个地区的 14 种语言，并划分为 16 大主题，全面覆盖各类实景任务。实验显示，最强 LLM 在 CulturALL 上仅取得 44.48% 的准确率，表明仍有巨大提升空间。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:30

# CulturALL：评测大模型多语言多文化落地任务能力的新基准  
来源：https://arxiv.org/html/2604.19262  
Peiqin Lin¹, Chenyang Lyu¹, Wenjiang Luo², Haotian Ye³, Md Mehrab Hossain⁵, Chunlan Ma³, Shaoxiong Ji⁴,⁵, Younes Samih⁶, Bo Zeng¹, Fan Jiang¹, Yuanbin Cao¹, Dilda Duisenbek², Adrian Neo Sau Xun², Daria Pozdniakova², Liubou Misevich², Nevena Marinković², Ngoc Gia Linh Nguyen², Thi Khanh Linh Do², Sarakmatak Sophy², Baotian Hu⁸, Guanhua Chen⁹, Gongbo Tang², Alham Fikri Aji⁷, Longyue Wang¹, Weihua Luo¹  
¹阿里巴巴 ²北京语言大学 ³慕尼黑大学 ⁴ELLIS 芬兰研究所 ⁵图尔库大学 ⁶IBM Research AI, UAE ⁷MBZUAI ⁸哈尔滨工业大学（深圳）⁹南方科技大学  

###### 摘要  

大语言模型（LLM）已在全球部署，催生大量评测其多语言与多文化能力的基准。然而，现有基准偏重通用语言理解或表层的文化百科问答，对“落地任务”——即需在真实、富含语境的场景中推理——的评估几乎空白。为此，我们提出 CulturALL：一个全面且高难度的基准，用于评测 LLM 在多语言、多文化落地任务上的能力。CulturALL 采用“人–机协同”框架：领域专家保证难度与事实准确，LLM 减轻人工负担；多源数据确保场景覆盖全面。每条样本均精心设计，难度高，总计 2,610 题，覆盖 51 个地区、14 种语言、16 个主题。实验表明，最强 LLM 在 CulturALL 上仅得 44.48%，提升空间巨大。代码与数据已开源：https://github.com/AIDC-AI/Marco-LLM。

---

## 1 引言  

一个真正可用的 LLM，必须在不同语言与文化场景中完成“落地任务”，因为用户日常需求正是如此。这类任务挑战在于同时考察三种互补能力：  
1. 语言理解（多语言）：精准解析用户母语；  
2. 文化知识获取（多文化）：调用长尾、领域细分的文化事实；  
3. 语境推理（落地）：整合信息并生成准确回答。  

如图 1(a) 所示，Q1 只测多语言，Q2 追加文化知识，Q3 则要求三者兼备，难度最大。  

为此，我们推出 CulturALL——首个同时覆盖语言、文化、落地三维的基准（图 1(b)）。CulturALL 通过“专家+LLM”协同框架构建：专家保证事实与难度，LLM 扩充场景，实现广度与深度兼得。图 2 展示其覆盖广度与挑战性：2,610 题、14 语言、51 地区、16 主题，每题均需融合文化知识与多步推理。  

在 CulturALL 上评测现有 LLM 发现：模型在文化落地任务上普遍吃力，提升性能需有效搜索与强推理。本文贡献如下：  
- 设计通用“人–机协同”框架，可扩展构建高覆盖、高难基准。  
- 发布 CulturALL，首个专注评测 LLM 多语言多文化落地任务能力的基准。  
- 对主流 LLM 进行系统评测与深度分析，揭示优势与失效模式。  

---

## 2 CulturALL：构建与统计  

图 3 给出整体框架：  
1. 文化主题采集：汇总文化主题；  
2. 样本创建：为各主题撰写原始题目；  
3. 样本增强：提升真实感与难度；  
4. 发布就绪：补全标签并质检。  

我们定义“文化组”为单一国家/地区人群。为覆盖全球，我们与来自多国家、多语言背景的专家合作。真实查询很少显式标注文化来源，因此每条样本都用当地主导语言撰写，嵌入本土线索，模型必须自行推断。  

### 2.1 阶段一：文化主题采集  

通过“人+LLM”迭代，先人工初筛主题，再调用 gpt-4o-2024-11-20 合并、精炼、扩展，最终得到 16 个主题并附描述。接着用个人经验与模型生成 160 个种子示例（每主题 10 个），为后续创作提供脚手架。完整主题列表与示例见表 4（附录 B）。  

### 2.2 阶段二：样本创建  

#### 2.2.1 样本格式  

表 1 列出每题必填字段。语言由标注者预设，地区与主题由 LLM 自动标注（§2.4.1），其余字段人工校验。  

- **Sample**：需嵌入当地词汇、社会规范、文化常识、法规等，拒绝通用百科。  
- **Scenario**：构建落地场景，不得透露可直通答案的显式线索。  
- **Question**：问题必须依赖文化知识才能答对。  
- **Answer**：尽量客观、简洁；无法简短回答则改为 4 选 1 选择题。  
- **Explanation**：给出支持答案的文化或领域知识，提升透明度。  

#### 2.2.2 文化知识来源  

- **个人经验（人）**：标注者基于亲身经历撰写，捕捉非书面规则与新兴俚语。  
- **跨语言灵感（人）**：将已有样本译成英文，供其他语言标注者“移植”类似场景。  
- **现有数据集（LLM）**：把旧文化题用 gpt-4o-2024-11-20 改写成带情境的落地题。  
- **线上资源（LLM）**：爬取小红书等 3,518 页当地帖子，翻译后喂给模型生成候选题。  

### 2.3 阶段三：样本增强  

所有草稿进入“升级”流程：评估难度后，对过易样本通过追加约束、引入多步推理等方式提升难度，确保 CulturALL 足够挑战。

CulturALL：评测大模型多语言多文化能力的实景基准

相似文章

XL-SafetyBench：一个基于国家的跨文化LLM安全与文化敏感性基准

GaoYao基准：全面评估大模型多语言与多文化能力的新框架

探索大语言模型在中文抽象语言掌握中的能力边界

元认知监测电池：LLM自我监测的跨域基准

RoleConflictBench：用于评估大语言模型情境敏感性的角色冲突场景基准

提交意见反馈