介绍 IndQA

OpenAI Blog 2025/11/03 22:30 工具

benchmark multilingual cultural-understanding indian-languages ai-evaluation open-source

摘要

OpenAI 推出了 IndQA，这是一个包含 2,278 个问题的新基准，涵盖 12 种印度语言和 10 个文化领域，旨在评估 AI 模型对现有基准无法捕捉的文化细微差别和推理密集型任务的理解能力。IndQA 由 261 位领域专家创建，针对 MMMLU 等现有多语言基准的饱和问题，重点关注真实世界的文化理解，而不是翻译或多选题任务。

OpenAI 推出了 IndQA，这是一个用于评估 AI 系统在印度语言中表现的新基准。IndQA 由领域专家精心构建，在 12 种语言和 10 个知识领域中测试文化理解和推理能力。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:53

# IndQA 介绍来源：https://openai.com/index/introducing-indqa/ 我们的使命是让 AGI 造福全人类。如果 AI 要对每个人都有用，它必须能够在各种语言和文化中表现良好。全球约 80% 的人口不以英语作为主要语言，但大多数衡量非英语语言能力的现有基准都存在不足。现有的多语言基准如 MMMLU(https://huggingface.co/datasets/openai/MMMLU) 现已饱和——顶级模型的得分聚集在高分区间——这使它们在衡量真实进展方面的用处降低。此外，当前的基准主要侧重于翻译或多选题。它们未能充分反映评估 AI 系统语言能力真正重要的内容——理解语境、文化、历史以及人们所在地区关心的事情。正因如此，我们开发了 **IndQA**，这是一个新的基准，旨在评估 AI 模型对印度语言中的重要问题的理解和推理能力，涵盖广泛的文化领域。虽然我们的目标是为其他语言和地区创建类似的基准，但印度是显而易见的起点。印度约有 10 亿人口不以英语作为主要语言，拥有 22 种官方语言（其中至少 7 种使用者超过 5000 万），是 ChatGPT 的第二大市场。这项工作是我们持续承诺的一部分，旨在改进我们为印度用户提供的产品和工具，并让我们的技术在全国范围内更易获取。 IndQA 通过印度语言评估人们对印度文化和日常生活的知识和推理能力。它包含 2,278 个问题，覆盖 12 种语言和 10 个文化领域，由来自印度各地的 261 位领域专家合作创建。与 MMMLU 和 MGSM 等现有基准不同，它专门设计用于探测文化细致入微、推理密集的任务，这些是现有评估难以捕捉的。 IndQA 涵盖广泛的文化相关主题，如**建筑与设计、艺术与文化、日常生活、食物与美食、历史、法律与伦理、文学与语言学、媒体与娱乐、宗教与精神信仰**和**体育与娱乐**——问题采用**孟加拉语、英语、印地语、印英混合语、卡纳达语、马拉地语、奥迪亚语、泰卢固语、古吉拉特语、马拉雅拉姆语、旁遮普语**和**泰米尔语**原生编写。*注：我们特意加入了印英混合语，考虑到对话中代码转换的普遍性。* 每个数据点包括**印度语言的文化语境提示**、**英文翻译**（用于审查）、**评分标准**和反映专家期望的**理想答案**。 IndQA 采用基于标准的方法。每个回答根据领域专家为特定问题编写的标准来评分。标准阐述了理想答案应包含或避免的内容，每项标准都根据其重要性获得加权点数。基于模型的评分器检查是否满足每项标准。最终得分是满足的标准点数总和与总可能点数之比。 - **专家撰写的问题。** 我们与合作伙伴合作，在 10 个不同领域中找到了印度各地的专家。他们起草了与其地区和专业相关的、具有挑战性且重点关注推理的问题。这些专家是相关语言（及英语）的母语使用者，具有深厚的学科专业知识。 - **对抗性过滤：** 每个问题都根据 OpenAI 在创建时最强大的模型进行了测试：GPT-4o、OpenAI o3、GPT-4.5 以及（部分地，在公开发布后）GPT-5。我们只保留了其中大多数模型无法生成可接受答案的问题，为进步留有空间。 - **详细标准。** 与每个问题一起，领域专家提供了用于评分模型回答的标准，类似于论文问题的考试标准。这些标准用于评分候选模型的回答。 - **理想答案 + 审查。** 专家添加了理想答案和英文翻译，随后进行同行评审和迭代修改，直至获得批准。我们使用 IndQA 来评估最新前沿模型的表现，并绘制过去几年的进度图。通过 IndQA，我们可以看到 OpenAI 的模型在印度语言上有了显著改进（有附注(https://openai.com/index/introducing-indqa/#caveats)），但仍有很大的改进空间。我们期待改进性能并为未来的模型分享结果。我们还按语言和领域分层展示 IndQA 的性能，将 GPT-5 Thinking High 与其他前沿模型进行比较。由于问题*在各语言间并非相同*，IndQA **不是**语言排行榜；跨语言得分不应被解释为语言能力的直接比较。相反，我们计划使用 IndQA 来衡量*模型系列或配置内随时间的改进*。此外，由于问题经过筛选，只保留了 GPT-4o、OpenAI o3、GPT-4.5 以及（公开发布后）GPT-5 无法充分回答的问题，问题选择对这些模型具有对抗性。这可能会混淆 GPT-5 的相对性能，并可能对所有 OpenAI 模型相比非 OpenAI 模型造成不利。我们感谢参与 IndQA 问题撰写和审查的 **261** 位印度专家——记者、语言学家、学者、艺术家和行业从业者。我们合作过的一些专家包括： - 获得南迪奖的泰卢固演员兼编剧，参演过 750 多部电影 - 《Tarun Bharat》杂志的马拉地记者和编辑 - 卡纳达语言学学者和词典编辑 - 指导百强棋手的国际象棋大师 - 倡导社会正义、种姓平等和文学自由的泰米尔作家、诗人和文化活动家 - 获奖旁遮普音乐作曲家 - 古吉拉特文化遗产保护专家和保护专员 - 获奖马拉雅拉姆诗人和表演艺术家 - 历史教授，专门研究孟加拉丰富的文化遗产 - 建筑学教授，专注于奥迪沙寺庙我们希望 IndQA 的发布能够为研究社区激发新的基准创建工作。IndQA 风格的问题在现有 AI 基准覆盖不足的语言或文化领域中尤其有价值。创建类似 IndQA 的基准可以帮助 AI 研究实验室更多地了解模型今天在哪些语言和领域中遭遇困难，并为未来的改进提供指引。

介绍 IndQA

相似文章

推出 SimpleQA

超越选择题：带有方言变体的开放式阿拉伯文化问答基准

IPQA：个性化问答中核心意图识别基准

介绍 HealthBench

重新思考我们如何衡量AI智能

提交意见反馈