KMMMU:韩语及韩国文化背景下的大规模多学科多模态理解评估

arXiv cs.CL 论文

摘要

KMMMU 是一个用于评估韩语多模态理解的本地化韩文基准,包含 3,466 道题目,涵盖九个学科和视觉模态类别,通过测试韩国特定文化和制度背景下的性能,填补了以英文为中心的基准的空白。

arXiv:2604.13058v2 发布类型:替代版本 摘要:我们推出 KMMMU,一个用于评估韩语文化和制度背景下多模态理解的本地化基准。KMMMU 包含 3,466 道来自韩文原生考试的题目,涵盖九个学科和九个视觉模态类别,另附一个 300 题的韩国特定子集和由 627 道题目组成的困难子集。与翻译版或以英文为中心的基准不同,KMMMU 针对由本地惯例、官方标准和学科特定视觉格式塑造的信息密集问题。实验表明,最强的开源模型在完整集上的准确率仅达 42.05%,而最佳专有模型在困难子集上达到 52.42%。性能在学科间差异显著,部分学科成为瓶颈,韩国特定问题的性能差距高达 13.43%。错误分析表明,这些失败较少源于推理深度不足,而更多源于弱的惯例到标签的映射、少样本符号归纳、本地化知识回忆和领域特定标准的理解能力不足。KMMMU 为超越以英文为中心的基准的多模态评估,以及开发更可靠的专家真实任务系统提供了测试平台。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:32

# KMMMU:韩语和韩国文化背景下大规模多学科多模态理解评估

来源:https://arxiv.org/html/2604.13058

Nahyun Lee1,5、Guijin Son2,4,5、Hyunwoo Ko4,5、Chanyoung Kim3,5、Junyoung An2、Kyubeen Han5、Il-Youp Kwak1

1中央大学 2首尔国立大学 3SK A.X 4OnelineAI 5HAE-RAE

###### 摘要

我们介绍KMMMU,一个用于评估韩国文化和制度背景下多模态理解能力的原生韩语基准。KMMMU包含3,466道来自原生韩语考试的题目,涵盖九个学科和九个视觉模态类别,同时包含一个300项的韩国特定子集和包含627道题目的困难子集。与翻译或以英语为中心的基准不同,KMMMU针对由本地约定、官方标准和学科特定视觉格式塑造的信息密集问题。实验表明,最强的开源模型在完整集上仅达到42.05%的准确率,而最佳专有模型在困难子集上达到52.42%。不同学科的性能差异较大,某些学科成为瓶颈,韩国特定问题显示最多13.43%的性能差距。错误分析表明,这些失败主要源于约定-标签映射能力不足、少量符号归纳、本地化知识回忆和领域特定标准理解的欠缺,而非推理深度不足。KMMMU为超越以英语为中心的基准的多模态评估和为专家现实任务开发更可靠系统提供了一个测试平台。数据集可在 https://huggingface.co/datasets/HAERAE-HUB/KMMMU 获取。

## 1 引言

多模态大语言模型(MLLM)在一系列视觉-语言任务上表现出色,包括视觉识别、文档理解和多模态问答。然而,现有基准并未充分反映这些模型日益部署的实际场景。过去的评估要么以英语为中心,要么源自翻译数据集,使其不太适合评估由本地制度约定、学科特定格式和非英语背景下信息密集的视觉材料塑造的任务性能。

**图1:** 英语(MMMU、MMMU-Pro)、日语(JMMMU、JMMMU-Pro)和韩语(其他)多模态基准的对比。每个点由基准规模(x轴,对数刻度)和难度代理(100-峰值公开分数)定位,颜色越浅表示发布时间越近。阴影区域标示两个常见限制:规模小(左)和回旋余地小(下)。

为了填补这一空白,我们推出KMMMU,一个用于专家级多模态理解的原生韩语基准。KMMMU包含3,466道题目,来自韩语评估源,跨越九个学科、九个视觉模态类别,以及多选和开放式两种问题格式。除了广泛评估外,该基准旨在诊断本地化知识、专家推理以及学科和模态特定的弱点。为了支持这一分析,我们构建了由三个基线模型都未能回答的题目组成的**困难子集**,以及针对国内法律、行政和制度知识的**韩国特定子集**。

**图2:** KMMMU题目示例。示例包括原始题目、相关图像、英文翻译以及视觉模态、问题格式和韩国特定标签等元数据。

KMMMU上的实验揭示了几个一致的发现。当前模型远未达到鲁棒性,最强的开源模型在完整集上达到42.05%,最佳专有模型在困难子集上达到52.42%。不同学科的性能差异很大,模型规模和显式推理带来的收益参差不齐。韩国特定问题仍然特别具有挑战性,相对于非韩国特定项目的准确率差距高达13.43%。这些结果表明,强大的通用多模态能力不会自动迁移到韩国制度和文化背景。

## 2 相关工作

近年来,已推出了多种韩语多模态基准,包括用于文本密集型VQA的KRETA、用于考试类教育评估的KoNET、用于医学推理的KorMedMCQA-V,以及针对自由形式VQA(KOFFVQA)、文化理解(K-Viscuit)、欠定用户查询(HAERAE-Vision)、翻译基准变体(K-MMBench、K-SEED)和以文档为中心的推理(K-DTCBench)的资源。然而,尽管多样性突出,大多数现有基准在覆盖范围上仍然受限,许多已经对当前模型达到饱和。这呼吁更大、更强的基准。

从现有考试中收集题目是基准构建的常见策略。MMLU、MMMU和M3Exam等基准都利用考试风格的题目来评估广泛的知识和推理,相关工作已将这一范式扩展到本地语言和文化背景,如日语JMMMU和中文CMMMU。这种方法很有价值,因为考试题目提供了规模、学科广度以及与人类专业知识的可解释链接,即使评估格式仅限于多选或短形式回答,也是评估通用能力的有用代理。

**那么为什么需要另一个X-MMMU基准呢?** 韩语案例进一步说明了为什么本地化基准仍然必要。例如,KMMLU是从原生韩语考试而非翻译构建的,从而捕捉翻译基准经常遗漏的语言和文化因素。类似地,KMMLU-Pro显示,翻译MMMLU与本地创作的韩语专业考试之间的差距在医学中相对较小,但在法律相关领域中明显更大,其中国家特定知识不可或缺。这些发现共同强调了需要针对每种语言和文化背景定制的本地化MMMU风格基准。

如图1所示,当前的格局仍然反映了广度、现实性和回旋余地之间的权衡。基于翻译的基准改进了与既定英语套件的可比性,但它们主要继承了源任务的结构和限制。更现实或文化扎根的基准捕捉重要的失败模式,包括文化推理、文本密集型理解和欠定现实查询,但它们的范围通常较窄或规模较小。此外,大多数现有韩语基准已经处于低回旋余地区域,而HAERAE-Vision虽然相对困难,但其大部分难度来自故意欠定而非广泛覆盖通用能力。因此,仍需一个大规模韩语多模态基准,覆盖面广泛、扎根于本地背景并充分未饱和以区分前沿模型。

## 3 KMMMU基准

### 3.1 数据收集和标注

KMMMU从韩国原生官方考试和竞赛中构建。这些来源包括公务员招聘(PSAT)、国家技术资格(NTQ)、国家职业能力标准考试(NCS)和学术奥林匹克竞赛(详见附录A)。我们初始收集约68k个原始实例。我们使用自动提取后进行手工验证的方式将收集的考试材料处理为结构化多模态实例。技术资格数据通过网络爬取收集,其他来源使用MinerU-2.5 OCR系统数字化。为了更正OCR伪影和验证图像裁剪,我们构建了一个定制验证界面。五名韩语注释者使用此系统审查数据集、优化LaTeX公式、验证图像参考并丢弃无法辨认的题目(详见附录B)。此外,我们期望此步骤可降低污染风险。由于数据集的很大一部分来自PDF文档,该基准相对不易受到大规模网络爬取数据集的影响。我们在附录I中提供了额外的消融研究。

### 3.2 KMMMU数据集构建

为确保基准难度,我们应用多阶段对抗性过滤管道,移除可被以下一个或多个模型解决的实例:Phi-3.5-Vision-Instruct、InternVL-3.5-38B、Gemini-2.5-Flash-Lite和Gemini-2.5-Flash。从手工验证的68k题目池开始,我们按顺序过滤数据集。每个模型在零样本设置中进行评估,任何模型正确回答的题目都从候选池中移除。这些对抗性过滤器也通过移除可能从训练数据中记忆的题目来最小化污染。虽然这种方法是事后的,但在当前鉴于缺乏可靠的方法来识别训练集包含以及日益下降的训练数据透明度的情况下,这是不可避免的。最终,KMMMU基准包含3,466道题目。图2展示了来自多个学科的代表性KMMMU实例,说明了该基准涵盖的视觉模态、问题格式和韩国特定内容的多样性。KMMMU以MMMU命名,反映其作为韩语对应物在语言和文化扎根设置中进行专家级多模态评估的预期角色。

**图3:** KMMMU的学科间视觉模态组成。堆积条表示每个学科中每个视觉模态的题目数量,标签下方显示总计数。散点表示叠加在相应学科-模态段上的韩国特定项目,并随机抖动。

### 3.3 分类学和数据集组成

KMMMU旨在评估跨多个领域的专家级多模态理解。每个实例按四个轴进行标注:学科、视觉模态、问题格式,以及韩国特定标志。韩国特定标志标识需要超越通用知识的韩国特定制度或文化知识的情况。所有分类标签都使用Gemini-2.5-Flash分配。为了评估标签质量,我们手工审计300个随机采样的实例并验证所有韩国特定项目。

图3按绝对计数呈现KMMMU中学科间的视觉模态分布。堆积条显示每个学科内每个视觉模态的题目数量,每个标签下的数字表示实例总数。叠加的散点表示韩国特定项目(随机抖动)在其相应的视觉模态段内。它们特别集中在制度扎根的领域,如商业与公共事务(76)和法律与伦理(82)。在各学科中,工程(Egnr)占数据集的最大份额,图表是最常见的视觉模态。文本/代码与文档也频繁出现,尤其是在商业、法律和社会科学领域。

### 3.4 困难子集的构建

为进一步分析模型局限性,我们构建了一个**困难子集**,包含具有挑战性的实例。具体而言,该子集包括被三个基线模型都错误回答的题目:Gemma-3-27B、Qwen3-VL-235B-Thinking和GPT-5-nano。困难子集包含627道题目,对应于完整KMMMU数据集的18%(详见图11)。

### 3.5 对抗性过滤是否扭曲了原始数据分布?

为评估对抗性过滤是否影响基准代表性,我们比较原始数据集和过滤子集的分布对齐。在这一分析中,每个项目使用从multilingual-e5-large获得的文本嵌入表示。所得嵌入使用PCA(n=50)投影到低维流形中,然后进行3D UMAP。如图4所示,**完整KMMMU集**和**困难子集**都在很大程度上保留了原始68k样本分布的广泛几何结构。为量化这些差异,我们计算Kullback-Leibler(KL)散度。

相似文章

UrduMMLU:乌尔都语理解的大规模多任务基准测试

arXiv cs.CL

UrduMMLU是一个新基准测试,包含来自本土教育材料的26,431道多项选择题,涵盖26个学科,用于评估大语言模型在乌尔都语理解上的表现。对30个大语言模型的评估显示,Gemini-3.5-Flash表现最佳,而开源模型和区域特定学科仍构成重大挑战。

多模态大语言模型评估中我们缺失了什么?

arXiv cs.AI

本文回顾了当前多模态大语言模型评估基准,找出了关键差距,如时空连贯性、物理世界理解、多模态一致性和选择性注意力,并指出现有的孤立任务基准无法衡量真正的跨模态整合。