介绍 IndQA
摘要
OpenAI 推出了 IndQA,这是一个包含 2,278 个问题的新基准,涵盖 12 种印度语言和 10 个文化领域,旨在评估 AI 模型对现有基准无法捕捉的文化细微差别和推理密集型任务的理解能力。IndQA 由 261 位领域专家创建,针对 MMMLU 等现有多语言基准的饱和问题,重点关注真实世界的文化理解,而不是翻译或多选题任务。
OpenAI 推出了 IndQA,这是一个用于评估 AI 系统在印度语言中表现的新基准。IndQA 由领域专家精心构建,在 12 种语言和 10 个知识领域中测试文化理解和推理能力。
查看缓存全文
缓存时间:
2026/04/20 14:53
# IndQA 介绍
来源:https://openai.com/index/introducing-indqa/
我们的使命是让 AGI 造福全人类。如果 AI 要对每个人都有用,它必须能够在各种语言和文化中表现良好。全球约 80% 的人口不以英语作为主要语言,但大多数衡量非英语语言能力的现有基准都存在不足。
现有的多语言基准如 MMMLU(https://huggingface.co/datasets/openai/MMMLU) 现已饱和——顶级模型的得分聚集在高分区间——这使它们在衡量真实进展方面的用处降低。此外,当前的基准主要侧重于翻译或多选题。它们未能充分反映评估 AI 系统语言能力真正重要的内容——理解语境、文化、历史以及人们所在地区关心的事情。
正因如此,我们开发了 **IndQA**,这是一个新的基准,旨在评估 AI 模型对印度语言中的重要问题的理解和推理能力,涵盖广泛的文化领域。虽然我们的目标是为其他语言和地区创建类似的基准,但印度是显而易见的起点。印度约有 10 亿人口不以英语作为主要语言,拥有 22 种官方语言(其中至少 7 种使用者超过 5000 万),是 ChatGPT 的第二大市场。
这项工作是我们持续承诺的一部分,旨在改进我们为印度用户提供的产品和工具,并让我们的技术在全国范围内更易获取。
IndQA 通过印度语言评估人们对印度文化和日常生活的知识和推理能力。它包含 2,278 个问题,覆盖 12 种语言和 10 个文化领域,由来自印度各地的 261 位领域专家合作创建。与 MMMLU 和 MGSM 等现有基准不同,它专门设计用于探测文化细致入微、推理密集的任务,这些是现有评估难以捕捉的。
IndQA 涵盖广泛的文化相关主题,如**建筑与设计、艺术与文化、日常生活、食物与美食、历史、法律与伦理、文学与语言学、媒体与娱乐、宗教与精神信仰**和**体育与娱乐**——问题采用**孟加拉语、英语、印地语、印英混合语、卡纳达语、马拉地语、奥迪亚语、泰卢固语、古吉拉特语、马拉雅拉姆语、旁遮普语**和**泰米尔语**原生编写。*注:我们特意加入了印英混合语,考虑到对话中代码转换的普遍性。*
每个数据点包括**印度语言的文化语境提示**、**英文翻译**(用于审查)、**评分标准**和反映专家期望的**理想答案**。
IndQA 采用基于标准的方法。每个回答根据领域专家为特定问题编写的标准来评分。标准阐述了理想答案应包含或避免的内容,每项标准都根据其重要性获得加权点数。基于模型的评分器检查是否满足每项标准。最终得分是满足的标准点数总和与总可能点数之比。
- **专家撰写的问题。** 我们与合作伙伴合作,在 10 个不同领域中找到了印度各地的专家。他们起草了与其地区和专业相关的、具有挑战性且重点关注推理的问题。这些专家是相关语言(及英语)的母语使用者,具有深厚的学科专业知识。
- **对抗性过滤:** 每个问题都根据 OpenAI 在创建时最强大的模型进行了测试:GPT-4o、OpenAI o3、GPT-4.5 以及(部分地,在公开发布后)GPT-5。我们只保留了其中大多数模型无法生成可接受答案的问题,为进步留有空间。
- **详细标准。** 与每个问题一起,领域专家提供了用于评分模型回答的标准,类似于论文问题的考试标准。这些标准用于评分候选模型的回答。
- **理想答案 + 审查。** 专家添加了理想答案和英文翻译,随后进行同行评审和迭代修改,直至获得批准。
我们使用 IndQA 来评估最新前沿模型的表现,并绘制过去几年的进度图。通过 IndQA,我们可以看到 OpenAI 的模型在印度语言上有了显著改进(有附注(https://openai.com/index/introducing-indqa/#caveats)),但仍有很大的改进空间。我们期待改进性能并为未来的模型分享结果。
我们还按语言和领域分层展示 IndQA 的性能,将 GPT-5 Thinking High 与其他前沿模型进行比较。
由于问题*在各语言间并非相同*,IndQA **不是**语言排行榜;跨语言得分不应被解释为语言能力的直接比较。相反,我们计划使用 IndQA 来衡量*模型系列或配置内随时间的改进*。
此外,由于问题经过筛选,只保留了 GPT-4o、OpenAI o3、GPT-4.5 以及(公开发布后)GPT-5 无法充分回答的问题,问题选择对这些模型具有对抗性。这可能会混淆 GPT-5 的相对性能,并可能对所有 OpenAI 模型相比非 OpenAI 模型造成不利。
我们感谢参与 IndQA 问题撰写和审查的 **261** 位印度专家——记者、语言学家、学者、艺术家和行业从业者。我们合作过的一些专家包括:
- 获得南迪奖的泰卢固演员兼编剧,参演过 750 多部电影
- 《Tarun Bharat》杂志的马拉地记者和编辑
- 卡纳达语言学学者和词典编辑
- 指导百强棋手的国际象棋大师
- 倡导社会正义、种姓平等和文学自由的泰米尔作家、诗人和文化活动家
- 获奖旁遮普音乐作曲家
- 古吉拉特文化遗产保护专家和保护专员
- 获奖马拉雅拉姆诗人和表演艺术家
- 历史教授,专门研究孟加拉丰富的文化遗产
- 建筑学教授,专注于奥迪沙寺庙
我们希望 IndQA 的发布能够为研究社区激发新的基准创建工作。IndQA 风格的问题在现有 AI 基准覆盖不足的语言或文化领域中尤其有价值。创建类似 IndQA 的基准可以帮助 AI 研究实验室更多地了解模型今天在哪些语言和领域中遭遇困难,并为未来的改进提供指引。
相似文章
OpenAI Blog
OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。
arXiv cs.CL
本文介绍了首个跨越现代标准阿拉伯语和多种方言的平行阿拉伯文化问答基准,将选择题转换为开放式问题,并利用思维链推理评估大语言模型,以解决文化知识和方言特定知识的缺陷。
arXiv cs.CL
IPQA引入了一个用于评估个性化问答中核心意图识别的基准,解决了现有指标仅关注响应质量而非意图理解的空白。论文提出了一种基于有界理性的数据集构建方法,并证明最先进的语言模型在从答案选择模式中识别用户优先意图时存在困难。
OpenAI Blog
OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。
Google DeepMind Blog
Google DeepMind和Kaggle推出了Kaggle Game Arena,一个开源的AI基准测试平台,让大型语言模型在策略游戏中进行对抗,从而提供动态的、可验证的能力评估。该平台通过提供明确的胜负条件和清晰的性能信号,克服了传统基准测试的局限性。