NSMQ 谜题:用于测试大语言模型的科学和数学谜题基准
摘要
本文介绍了 NSMQ Riddles,这是一个使用来自加纳全国科学与数学测验(NSMQ)的科学和数学谜题来评估大语言模型的全新基准,旨在解决人工智能研究中全球南方数据集代表性不足的问题。
查看缓存全文
缓存时间: 2026/05/11 06:42
# NSMQ 谜题:用于测试大语言模型科学与数学谜题能力的基准 来源:https://arxiv.org/html/2605.07051 11institutetext:瑞士苏黎世联邦理工学院 22institutetext:德国柏林夏里特医科大学 33institutetext:美国 Kwame AI Inc. 44institutetext:加纳阿谢西大学 Naafi Dasana Ibrahim, Samuel John, Philemon Badu, Patrick Agyeman-Budu, Jonathan Abrefah Mensah, Kevin Takyi Yeboah, William Edor, Andrew Kojo Mensah-Onumah, Nana Sam Yeboah, Victor Kumbol ###### 摘要 大语言模型(LLMs)在各种科学教育基准测试中表现良好,展示了其在科学和数学教育中的潜力。然而,LLMs 往往是在来自西方世界的科学和数学教育数据集上进行评估,来自全球南方(Global South)的数据集代表性不足。此外,它们往往采用多项选择题选项,评估起来较为简单。在本研究中,我们提出了 NSMQ Riddles,这是一个来自加纳国家科学与数学_quiz_(NSMQ)竞赛的科学与数学谜题新基准,用于评估 LLMs。NSMQ 是加纳每年举办的一场面向高中生的现场电视竞赛,汇集了加纳最聪明的中学生,他们组成两人小组,经过五轮五个阶段的生物、化学、物理和数学问答,直到决出当年的冠军队伍。NSMQ Riddles 包含了来自第五轮谜题的 11 年谜题问题($n=1.8K$),每个谜题至少包含 3 条线索。学生竞相在任意一条线索后率先猜出答案,较早的线索较为模糊,但得分更高。答案通常是数字、单词或短词组,便于自动评估。我们评估了最先进的模型:闭源模型(GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6)和开源模型(Kimi-K2.5, DeepSeek-V3.1, GPT-OSS-120B),并设置了高和低推理模式。我们的评估显示,该数据集即使对于最先进的 LLMs 也具有挑战性,这些模型的表现甚至不如最优秀的参赛学生。本研究贡献了一个来自全球南方的新颖且具有挑战性的科学与数学推理基准,旨在推动对 LLMs 在科学和数学教育方面能力的真正全球性基准测试。 ## 1 引言 大语言模型(LLMs)在各种科学和数学教育基准测试中表现出了良好的性能\[8 (https://arxiv.org/html/2605.07051#bib.bib28),7 (https://arxiv.org/html/2605.07051#bib.bib18)\],展示了其在科学和数学教育中的潜力。这些模型在从回答问题到生成教育内容的各种任务中表现出色。然而,在使用来自全球南方的教育数据集评估这些模型方面存在显著差距,相关数据集有限,如\[19 (https://arxiv.org/html/2605.07051#bib.bib58)\]。目前,LLMs 主要使用来自西方背景的教育数据集进行评估\[15 (https://arxiv.org/html/2605.07051#bib.bib41),6 (https://arxiv.org/html/2605.07051#bib.bib17),10 (https://arxiv.org/html/2605.07051#bib.bib31),13 (https://arxiv.org/html/2605.07051#bib.bib39)\],未能充分代表世界其他地区(特别是非洲)多样化的教育挑战。例如,2023 年 3 月发布的 GPT-4 包含了各种学术基准测试,但没有一个是来自非洲的\[1 (https://arxiv.org/html/2605.07051#bib.bib1)\]。这一疏忽突显了一个更广泛的问题:在评估 LLMs 能力时,非洲教育背景被边缘化。这种数据集选择中的地理偏见限制了对 LLMs 真实能力及其潜在全球影响的理解。这种代表性不足不仅 perpetuates 了非洲教育背景在人工智能研究中的边缘化地位,还阻碍了针对非洲学生独特需求的人工智能解决方案的发展。通过主要关注西方数据集,当前的基准测试未能捕捉教育场景的全貌,从而限制了人工智能在教育领域全球范围内的适用性和公平性。解决这个问题至关重要,原因有以下几点。首先,确保人工智能技术具有包容性和公平性,对于在不同背景下提供教育益处至关重要。其次,纳入来自全球南方的数据集使研究人员能够开发更强大、更具泛化能力的人工智能模型,从而在各种文化和教育环境中表现良好。最后,解决这一差距有助于利用人工智能支持和加强欠发达地区的学习,从而减少教育不平等。 在本研究中,我们介绍了 NSMQ Riddles,这是一个包含来自加纳国家科学与数学_quiz_(NSMQ)竞赛的科学与数学谜题的新基准,旨在在教育背景下评估 LLMs。NSMQ 是加纳每年举办的一场现场电视竞赛,汇集了加纳最聪明的中学生,他们组成两人小组,经过五轮五个阶段的生物、化学、物理和数学问答,直到决出当年的冠军队伍。\[16 (https://arxiv.org/html/2605.07051#bib.bib42),3 (https://arxiv.org/html/2605.07051#bib.bib13)\]。NSMQ 的问题由加纳大学的学者出题,涵盖高中水平的生物、化学、物理和数学问题,符合西非高级学校证书考试(WASSCE)课程,该课程被加纳、尼日利亚、冈比亚、塞拉利昂、利比里亚和冈比亚使用\[3 (https://arxiv.org/html/2605.07051#bib.bib13)\]。本工作聚焦于第五轮——谜题,它是 Brilla AI111https://brilla-ai.org/project 项目的一部分,该项目致力于构建一个人工智能参赛者以赢得 NSMQ\[5 (https://arxiv.org/html/2605.07051#bib.bib15)\]。作为最后一轮,这一轮 arguably 是最令人兴奋的,因为比赛的获胜者通常由在这一轮的表现决定。在谜题轮中,学生回答跨生物、化学、物理和数学领域的谜题。向相互竞争的团队朗读三(3)条或更多线索,团队竞相通过按铃首先提供答案(通常是一个词或短语)。线索从模糊开始,逐渐变得具体,这使得较早的线索更具挑战性。为了增加刺激性并鼓励明智的冒险,在第 1 条线索后回答得 5 分,在第 2 条线索后得 4 分,在第 3 条或之后的任何线索后得 3 分。每场竞赛有 4 个谜题,每个谜题聚焦于 4 个科目中的一个。速度和准确性是赢得谜题轮的关键。以下是一个带有线索和答案的谜题示例(在此查看现场示例222Video Example of Riddle:https://www.youtube.com/watch?v=pE42doghgXw)。 问题 1. 1\. 我是物理学中的一个命名原则。 2. 2\. 尽管有我的名字,我是一个确定的原则。 3. 3\. 我已被解释为对可以同时进行的测量对的自然限制。 4. 4\. 然而,我只给出界限。 5. 5\. 位置和动量是讨论我的常见候选项 6. 6\. 但当我被适当制定时,我有更广泛的适用性。我是谁? 答案:海森堡不确定性原理。 NSMQ Riddles 包含了来自第五轮的 11 年谜题问题($n=1.8K$),每个问题至少包含三条线索。答案通常是数字、单词或短词组,便于自动评估。我们评估了当前最先进的模型:闭源模型(GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6)和开源模型(Kimi-K2.5, DeepSeek-V3.1, GPT-OSS-120B),并设置了高和低推理模式。我们将它们的表现与那些谜题中最佳参赛学生的回顾性表现进行了比较。我们的结果表明,该数据集即使对这些高级模型也构成了挑战,它们的表现不如最佳参赛学生。 我们的贡献是(1)来自全球南方的 1.8K 个科学和数学谜题的新数据集,以及(2)对闭源和开源最先进 LLMs 在数据集子集上的评估。据我们所知,这是第一个科学和数学谜题数据集。本研究贡献了一个来自全球南方的科学与数学推理新基准,促进了在教育领域对 LLMs 能力的真正全球性评估。 ## 2 相关工作 我们描述了关于(1)谜题数据集和(2)科学与数学问答数据集的相关工作,以及我们的工作有何不同。 ### 2.1 谜题数据集 近年来,创建需要非平凡常识和反事实推理的谜题数据集的工作日益受到关注,这源于评估自然语言处理模型在事实问答任务之外能力的需要。已经开展了几项努力,为这项工作提供了有价值的见解和基准。一个著名的数据集是 RiddleSense,它是由人工编写的谜题集合,旨在通过众包获取干扰项来评估语言模型的常识推理能力,提供多项选择题选项\[12 (https://arxiv.org/html/2605.07051#bib.bib37)\]。另一个数据集是 BiRdQA 数据集,它提供英语和中文的双语谜题,带有多个选择题选项(干扰项自动生成),并附有每个候选答案的维基百科介绍\[20 (https://arxiv.org/html/2605.07051#bib.bib57)\]。该数据集促进了跨语言研究,使得在不同语言和文化背景下进行比较分析成为可能。NSMQ Riddles 与这些谜题数据集的不同之处在于其(1)专注于科学和数学教育问答,(2)每个谜题的复杂性,至少包含 3 条线索,平均包含 5 条线索,以及(3)使用简短答案响应而不是多项选择题选项。 ### 2.2 科学与数学数据集 存在多个用于科学教育问答的数据集,如 OpenBookQA\[15 (https://arxiv.org/html/2605.07051#bib.bib41)\]、ARC\[6 (https://arxiv.org/html/2605.07051#bib.bib17)\]、TQA\[10 (https://arxiv.org/html/2605.07051#bib.bib31)\]、ScienceQA\[13 (https://arxiv.org/html/2605.07051#bib.bib39)\]、SciBench\[18 (https://arxiv.org/html/2605.07051#bib.bib55)\]、MMLU-STEM\[8 (https://arxiv.org/html/2605.07051#bib.bib28)\]、GPQA\[17 (https://arxiv.org/html/2605.07051#bib.bib50)\](任务专注于科学和工程学科)以及数学问答,如 MATH\[9 (https://arxiv.org/html/2605.07051#bib.bib27)\]、GSM8K\[7 (https://arxiv.org/html/2605.07051#bib.bib18)\]、MathArena\[2 (https://arxiv.org/html/2605.07051#bib.bib3)\]。这些数据集涵盖了从小学到大学的各个教育水平,难度各异。大多数这些数据集使用多项选择题格式,便于简单评估。NSMQ Riddles 与这些数据集的主要区别在于问题的谜题结构,这需要跨线索的复杂推理才能得出答案,通过其简短答案响应超越了多项选择题选项,并且重要的是,它来自全球南方(西非)的教育背景,这在这些基准测试中往往代表性不足。 ## 3 NSMQ 谜题 ### 3.1 概述 NSMQ Riddles 数据集333如需获取用于基准测试的数据集,请发送电子邮件至 [email protected] 包含 1,840 个谜题问题,由 NSMQ 第五轮中 11 年的问题组成,时间范围为 2009 年至 2021 年(不包括 2010 年和 2011 年,当时比赛未举行)。总体而言,比赛后期的问题难度逐渐增加,总决赛最具挑战性。该数据集在生物(25.7%)、化学(28.8%)、物理(26.4%)和数学(24.5%)之间分布几乎均匀;请注意,每个谜题可能有多个科目标签,因此总百分比超过 100%。在谜题轮中,每个问题由三条(3)或更多线索组成,向竞争团队大声朗读。团队竞相首先按铃并给出正确答案,通常是一个词或短语。线索从广泛开始,逐渐变得更加具体。为了增加刺激性并奖励明智的冒险,在第一条线索后正确回答得 5 分,第二条线索后得 4 分,第三条或任何后续线索后得 3 分。每场竞赛包含四个谜题,每个科目一个。速度和准确性是赢得谜题轮的关键。表 1 (https://arxiv.org/html/2605.07051#S3.T1) 展示了每个科目一个的几个示例。以下是一个带有线索和相应答案的谜题示例。 问题 1. 1\. 你必须向下看水平线以下才能看到我。 2. 2\. 我总是垂头丧气,感到沮丧。 3. 3\. 我是一个角度。 4. 4\. 准确地说,我是一种类型的角度。 5. 5\. 我是水平线与观察者视线到低于观察者视平线的物体之间的连线所形成的角度。我是谁? 答案:俯角。 此外,该数据集包含一个元数据表,其中包含关于 2019 年(156 个谜题)和 2020 年(160 个谜题)比赛的信息,例如比赛日期、参赛学校以及回答每个谜题的学校和在哪条线索后回答,我们使用这些信息来评估每道谜题中最佳参赛学生团队的表现。请注意,在元数据表中,2019 年有 4 个谜题的数据不完整,原因是视频录制存在故障。 表 1:物理、数学、化学和生物领域的谜题示例 ### 3.2 数据收集与预处理 我们通过 YouTube 上公开可用的比赛视频录像,以及通过与一所参加比赛的中学的合作获得了问题和答案的数字版本(其中包含每道题目的科目、比赛编号和年份等元数据)。我们解析了这些数据并将其重新格式化为 CSV 文件以供使用。我们以 PDF 格式获取问题,并使用 Mathpix\[14 (https://arxiv.org/html/2605.07051#bib.bib40)\](一种商业光学字符识别工具)将它们转换为 Markdown 格式的文本文件,将方程式和公式转换为 LaTeX。由于像 Mathpix 这样的 OCR 工具偶尔会引入转录错误,我们通过将 OCR 输出与原始 PDF 进行比较并纠正任何差异,手动审查了每个转换后的文档。我们还使用 StackEdit 清理转换过程中遗留的任何格式问题。为了实现自动评估,我们手动创建了地面真值答案的变体,包括剥离 Markdown、分离正确答案选项(例如,棕榈酸钠 OR 十六碳酸钠),并提供答案的替代形式,例如如果符号形式是地面真值答案,则写出完整的化学名称,反之亦然(例如,氢气和 H2)。例如,以下原本在 LaTeX 中的地面真值答案,$SO_2$,产生了以下替代答案:SO2 和 二氧化硫(IV)。然后,我们编写代码将问题和答案文本文件重新格式化为 CSV。CSV 包含“Clue 1”到“Clue 9”列,用于所有线索,“Answer”列用于原始地面真值答案,“Answer with Markdown 1”和“Answer with Markdown 2”列包含 LaTeX 中答案的所有不同版本,以及“Answer 1”、“Answer 2”、“Answer 3”和“Answer 4”
相似文章
MathNet:一个面向数学推理与检索的全球多模态基准
# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。
低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究
本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。
重探语义处理的痛点:语言模型的语义推理基准测试
研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。
超越当前观察:在可控非马尔可夫游戏中评估多模态大语言模型
本文介绍了RNG-Bench,一个基准测试套件,用于评估多模态基础模型在多步交互中重建过去观察并利用它们进行决策的能力。该套件包含两个游戏(Matching Pairs和3D Maze),具有可控难度参数和一个记忆差距指标,用于区分遗忘与糟糕的决策。