CulturALL:评测大模型多语言多文化能力的实景基准
摘要
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
arXiv:2604.19262v1 公告类型:新增
摘要:大语言模型(LLM)已在全球范围部署,催生大量评测其多语言与多文化能力的基准。然而,这些基准多聚焦通用语言理解或表面文化问答,忽视了对“实景任务”——模型需在真实、情境丰富的场景中推理——的评估。为此,我们推出 CulturALL,一套全面且具有挑战性的基准,用于检验 LLM 在实景任务中的多语言多文化能力。CulturALL 采用“人—AI”协同构建:专家标注者确保题目难度适中、事实准确,LLM 则减轻人工负担。通过整合多元数据源,CulturALL 实现场景全覆盖;每道题均精心设计,难度较高,整体极具挑战性。CulturALL 共含 2,610 条样本,覆盖 51 个地区的 14 种语言,并划分为 16 大主题,全面覆盖各类实景任务。实验显示,最强 LLM 在 CulturALL 上仅取得 44.48% 的准确率,表明仍有巨大提升空间。
查看缓存全文
缓存时间: 2026/04/22 08:30
# CulturALL:评测大模型多语言多文化落地任务能力的新基准 来源:https://arxiv.org/html/2604.19262 Peiqin Lin¹, Chenyang Lyu¹, Wenjiang Luo², Haotian Ye³, Md Mehrab Hossain⁵, Chunlan Ma³, Shaoxiong Ji⁴,⁵, Younes Samih⁶, Bo Zeng¹, Fan Jiang¹, Yuanbin Cao¹, Dilda Duisenbek², Adrian Neo Sau Xun², Daria Pozdniakova², Liubou Misevich², Nevena Marinković², Ngoc Gia Linh Nguyen², Thi Khanh Linh Do², Sarakmatak Sophy², Baotian Hu⁸, Guanhua Chen⁹, Gongbo Tang², Alham Fikri Aji⁷, Longyue Wang¹, Weihua Luo¹ ¹阿里巴巴 ²北京语言大学 ³慕尼黑大学 ⁴ELLIS 芬兰研究所 ⁵图尔库大学 ⁶IBM Research AI, UAE ⁷MBZUAI ⁸哈尔滨工业大学(深圳)⁹南方科技大学 ###### 摘要 大语言模型(LLM)已在全球部署,催生大量评测其多语言与多文化能力的基准。然而,现有基准偏重通用语言理解或表层的文化百科问答,对“落地任务”——即需在真实、富含语境的场景中推理——的评估几乎空白。为此,我们提出 CulturALL:一个全面且高难度的基准,用于评测 LLM 在多语言、多文化落地任务上的能力。CulturALL 采用“人–机协同”框架:领域专家保证难度与事实准确,LLM 减轻人工负担;多源数据确保场景覆盖全面。每条样本均精心设计,难度高,总计 2,610 题,覆盖 51 个地区、14 种语言、16 个主题。实验表明,最强 LLM 在 CulturALL 上仅得 44.48%,提升空间巨大。代码与数据已开源:https://github.com/AIDC-AI/Marco-LLM。 --- ## 1 引言 一个真正可用的 LLM,必须在不同语言与文化场景中完成“落地任务”,因为用户日常需求正是如此。这类任务挑战在于同时考察三种互补能力: 1. 语言理解(多语言):精准解析用户母语; 2. 文化知识获取(多文化):调用长尾、领域细分的文化事实; 3. 语境推理(落地):整合信息并生成准确回答。 如图 1(a) 所示,Q1 只测多语言,Q2 追加文化知识,Q3 则要求三者兼备,难度最大。 为此,我们推出 CulturALL——首个同时覆盖语言、文化、落地三维的基准(图 1(b))。CulturALL 通过“专家+LLM”协同框架构建:专家保证事实与难度,LLM 扩充场景,实现广度与深度兼得。图 2 展示其覆盖广度与挑战性:2,610 题、14 语言、51 地区、16 主题,每题均需融合文化知识与多步推理。 在 CulturALL 上评测现有 LLM 发现:模型在文化落地任务上普遍吃力,提升性能需有效搜索与强推理。本文贡献如下: - 设计通用“人–机协同”框架,可扩展构建高覆盖、高难基准。 - 发布 CulturALL,首个专注评测 LLM 多语言多文化落地任务能力的基准。 - 对主流 LLM 进行系统评测与深度分析,揭示优势与失效模式。 --- ## 2 CulturALL:构建与统计 图 3 给出整体框架: 1. 文化主题采集:汇总文化主题; 2. 样本创建:为各主题撰写原始题目; 3. 样本增强:提升真实感与难度; 4. 发布就绪:补全标签并质检。 我们定义“文化组”为单一国家/地区人群。为覆盖全球,我们与来自多国家、多语言背景的专家合作。真实查询很少显式标注文化来源,因此每条样本都用当地主导语言撰写,嵌入本土线索,模型必须自行推断。 ### 2.1 阶段一:文化主题采集 通过“人+LLM”迭代,先人工初筛主题,再调用 gpt-4o-2024-11-20 合并、精炼、扩展,最终得到 16 个主题并附描述。接着用个人经验与模型生成 160 个种子示例(每主题 10 个),为后续创作提供脚手架。完整主题列表与示例见表 4(附录 B)。 ### 2.2 阶段二:样本创建 #### 2.2.1 样本格式 表 1 列出每题必填字段。语言由标注者预设,地区与主题由 LLM 自动标注(§2.4.1),其余字段人工校验。 - **Sample**:需嵌入当地词汇、社会规范、文化常识、法规等,拒绝通用百科。 - **Scenario**:构建落地场景,不得透露可直通答案的显式线索。 - **Question**:问题必须依赖文化知识才能答对。 - **Answer**:尽量客观、简洁;无法简短回答则改为 4 选 1 选择题。 - **Explanation**:给出支持答案的文化或领域知识,提升透明度。 #### 2.2.2 文化知识来源 - **个人经验(人)**:标注者基于亲身经历撰写,捕捉非书面规则与新兴俚语。 - **跨语言灵感(人)**:将已有样本译成英文,供其他语言标注者“移植”类似场景。 - **现有数据集(LLM)**:把旧文化题用 gpt-4o-2024-11-20 改写成带情境的落地题。 - **线上资源(LLM)**:爬取小红书等 3,518 页当地帖子,翻译后喂给模型生成候选题。 ### 2.3 阶段三:样本增强 所有草稿进入“升级”流程:评估难度后,对过易样本通过追加约束、引入多步推理等方式提升难度,确保 CulturALL 足够挑战。
相似文章
XL-SafetyBench:一个基于国家的跨文化LLM安全与文化敏感性基准
XL-SafetyBench是一个包含5500个测试用例的基准,涵盖10个国家-语言对,用于评估LLM安全性和文化敏感性,区分越狱鲁棒性与文化意识。
GaoYao基准:全面评估大模型多语言与多文化能力的新框架
GaoYao发布18.2万样本、覆盖26种语言与51个地区的基准,系统评测大模型多语言与多文化能力,首次揭示显著地域性能差异。
探索大语言模型在中文抽象语言掌握中的能力边界
本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。
元认知监测电池:LLM自我监测的跨域基准
一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。
RoleConflictBench:用于评估大语言模型情境敏感性的角色冲突场景基准
RoleConflictBench 是一个新颖的基准,包含 13,000+ 个场景和 65 个角色,旨在评估大语言模型在多个社会期望相互冲突的角色冲突情境中的情境敏感性。对 10 个大语言模型的分析表明,这些模型主要依赖于学习到的角色偏好,而非动态的情境线索来做决策。