麻省理工学院科学家构建了全球最大规模的奥数级数学问题集,并向所有人开放

MIT News — Artificial Intelligence 论文

摘要

麻省理工学院(MIT)研究人员与沙特阿卜杜拉国王科技大学(KAUST)及 HUMAIN 公司合作,发布了 MathNet。这是目前最大的开源奥数级数学问题数据集,包含来自 47 个国家的超过 30,000 道由专家编写的问题。

<p dir="ltr" id="docs-internal-guid-4c56fcbe-7fff-794e-4748-9b6db6a246ac">每年,参加国际数学奥林匹克竞赛(IMO)的国家都会带上一本收录了他们最优秀、最具原创性问题的小册子。这些小册子在各国代表团之间传阅,随后便悄然消失。此前,从未有人系统地收集、清理并公开这些资源,既没有供 AI 研究人员测试数学推理极限使用,也没有供全球那些主要依靠自学来备战此类竞赛的学生使用。</p><p dir="ltr">现在,麻省理工学院计算机科学与人工智能实验室(CSAIL)、沙特阿卜杜拉国王科技大学(KAUST)以及 HUMAIN 公司的研究人员完成了这项工作。</p><p dir="ltr">MathNet 是有史以来创建的规模最大的高质量证明类数学问题数据集。它包含超过 30,000 道由专家编写的问题及其解答,涵盖 47 个国家、17 种语言和 143 场竞赛,其规模是同类数据集中第二大者的五倍。该研究成果将于本月晚些时候在巴西举行的国际机器学习表征会议(ICLR)上展示。</p><p dir="ltr">MathNet 的独特之处不仅在于其规模,更在于其广度。以往的奥数级数据集几乎完全来源于美国和中国举办的竞赛。而 MathNet 涵盖了六大洲数十个国家,涉及 17 种语言,包括基于文本和图像的问题及解答,并跨越了四十年的竞赛数学历史。其目标是捕捉全球数学社区中存在的各种数学视角和问题解决传统,而不仅仅是那些最引人注目的部分。</p><p dir="ltr">“每个国家都会带来一本收录了其最新颖、最具创意问题的小册子,”麻省理工学院博士生、论文第一作者 Shaden Alshammari 说道,“他们彼此分享这些小册子,但从未有人花费精力去收集、清理并将它们上传到网上。”</p><p dir="ltr">构建 MathNet 需要追踪 1,595 卷 PDF 文件,总计超过 25,000 页,涵盖数字文档和十余种语言的数十年前的扫描件。该档案的重要部分来自一个意想不到的来源:Navid Safaei 是 IMO 社区的资深人士及合作作者,自 2006 年以来他一直在手动收集和扫描这些小册子。他的个人档案构成了数据集的大部分基础。</p><p dir="ltr">数据来源的重要性不亚于其规模。与大多数现有的数学数据集从 Art of Problem Solving (AoPS) 等社区论坛抽取问题不同,MathNet exclusively 来源于官方全国竞赛小册子。这些小册子中的解答由专家撰写并经同行评审,且往往长达数页,作者会逐步展示解决同一问题的多种方法。这种深度为 AI 模型学习数学推理提供了远比社区来源数据集中常见的那种简短、非正式解答更为丰富的信号。这也意味着该数据集对学生真正有用:任何准备参加 IMO 或全国竞赛的人现在都可以访问一个集中式、可搜索的高质量问题和详细解答集合,涵盖了世界各地的解题传统。</p><p dir="ltr">“我记得有很多学生都是靠自己努力,”曾以学生身份参加 IMO 的 Alshammari 说道,“他们所在的国家没有人专门训练他们参加这类竞赛。我们希望这能提供一个集中场所,让他们能够学习高质量的问题和解答。”</p><p dir="ltr">该团队在 IMO 社区有着深厚的根基。合著者 Sultan Albarakati 目前担任 IMO 董事会成员,研究人员正致力于直接向 IMO 基金会分享该数据集。为了验证数据集,他们组建了一个由来自亚美尼亚、俄罗斯、乌克兰、越南和波兰等国的 30 多名人类评估者组成的评分小组,共同协作以验证数千个解答。</p><p dir="ltr">“MathNet 数据库有望成为学生和领队寻找新题目进行练习或寻求难题解答的优秀资源,”瑞士 IMO 副领队 Tanish Patil 说道,“虽然目前也存在其他奥数问题档案(尤其是 AoPS 上的 Contest Collections 论坛),但这些资源缺乏标准化的格式系统、经过验证的解答以及主题和理论所需的重要问题元数据。观察该数据集如何被用于提升推理模型的性能也将很有趣,以及我们是否很快就能可靠地解决在创建新奥数题目时的一个重要问题:确定一个问题是否真正具有原创性。”</p><p dir="ltr">MathNet 还作为 AI 性能的严格基准,其结果揭示了一幅比近期关于 AI 数学能力的头条新闻所暗示的更为复杂的图景。前沿模型取得了非凡的进展:据报道,一些模型已在 IMO 中达到金牌水平,并在标准基准测试中解决了大多数人类都会感到困惑的问题。但 MathNet 显示这种进步并不均衡。即使在表现最佳的测试模型 GPT-5 中,在 MathNet 包含 6,400 道问题的主要基准测试上的平均分约为 69.3%,这意味着它未能解决近三分之一的奥数级问题。此外,当问题包含图形时,所有模型的性能均显著下降,暴露出即使是能力最强的模型在视觉推理方面也存在一贯的弱点。</p><p dir="ltr">几个开源模型在蒙古语问题上得分为 0%,突显了当前 AI 系统尽管整体强大但在另一个维度上的不足。</p><p dir="ltr">“GPT 模型在英语和其他语言上的表现同样出色,”Alshammari 说,“但许多开源模型在蒙古语等不常见语言上完全失效。”</p><p dir="ltr">MathNet 的多样性还旨在解决 AI 模型学习数学方式中的一个更深层次的局限性。当训练数据偏向英语和中文问题时,模型吸收的只是数学文化的狭窄切片。罗马尼亚的组合数学问题或巴西的数论问题可能从完全不同的角度切入相同的底层概念。研究人员认为,接触这种范围广泛的内容,能使人类和 AI 系统都成为更好的数学思考者。</p><p dir="ltr">除了问题解决能力,MathNet 还引入了一个检索基准,测试模型是否能识别两个问题是否共享相同的底层数学结构,这种能力对 AI 开发和数学社区本身都至关重要。多年来,近乎重复的问题曾出现在真实的 IMO 考试中,因为在不同的符号、语言和格式之间发现数学等价性确实很难,即使是专家人类委员会也是如此。研究人员测试了八种最先进的嵌入模型,发现即使是表现最强的模型,在首次尝试时也只有约 5% 的概率正确识别匹配项,且模型经常将结构上不相关的问题排在与等价问题更相似的位置。</p><p dir="ltr">该数据集还包括一个检索增强生成基准,测试在向模型提出新问题前先提供一个结构相关的问题是否能提高其性能。确实如此,但仅当检索到的问题真正相关时。DeepSeek-V3.2-Speciale 在配合良好匹配的检索时得分提高了多达 12 个百分点,而在约 22% 的情况下,不相关的检索会导致性能下降。</p><p dir="ltr">Alshammari 与 Safaei、HUMAIN AI 工程师 Abrar Zainal、KAUST 学术院长 Sultan Albarakati 以及 MIT CSAIL 的同事共同撰写了这篇论文:硕士生 Kevin Wen SB ’25;微软首席工程经理 Mark Hamilton SM ’22,博士 ‘25;以及教授 William Freeman 和 Antonio Torralba。他们的工作受...</p>
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:51

# 麻省理工学院科学家构建了全球最大的奥林匹克数学问题集,并向所有人开放 来源:https://news.mit.edu/2026/mit-scientists-build-worlds-largest-collection-olympiad-level-math-problems-open-0424 每年,参加国际数学奥林匹克(IMO)的国家都会携带一本包含其最优秀、最具原创性问题的手册。这些手册在各国代表团之间分享,随后便悄然消失。过去,没有人系统地收集、清理并公开这些资料,无论是为了测试数学推理极限的人工智能研究人员,还是那些主要依靠自学、为全球竞赛做准备的学生们。 如今,麻省理工学院计算机科学与人工智能实验室(CSAIL)、阿卜杜拉国王科技大学(KAUST)以及公司 HUMAIN 的研究人员正好完成了这一工作。 MathNet 是有史以来创建的最大规模的高质量证明类数学问题数据集。它包含来自 47 个国家、17 种语言、143 场竞赛的超过 30,000 个由专家编写的问题及解答,其规模是第二大同类数据集的五倍。这项成果将在本月晚些时候于巴西举行的国际学习表征会议(ICLR)上发表。 MathNet 的不同之处不仅在于其规模,更在于其广度。以前的奥林匹克级别的数据集几乎完全来自美国和中国举办的竞赛。MathNet 涵盖了六大洲的数十个国家,覆盖 17 种语言,包含基于文本和图片的问题与解答,并跨越了四十年的竞赛数学历史。其目标是捕捉全球数学界存在的各种数学视角和问题解决传统,而不仅仅是那些最显眼的传统。 “每个国家都会带来一本包含其最新颖、最具创意问题的手册,”麻省理工学院博士生、论文第一作者 Shaden Alshammari 说。“他们彼此分享这些手册,但此前没有人付出努力将它们收集、清理并上传到网上。” 构建 MathNet 需要追踪 1,595 本 PDF 卷册,总计超过 25,000 页,涵盖数字文档和十几种语言中几十年前的扫描件。这份档案的重要部分来自一个意想不到的来源:Navid Safaei,一位 IMO 社区的资深人物及合作作者,自 2006 年以来一直手工收集和扫描这些手册。他的个人档案构成了数据集的主要基础。 数据来源的重要性不亚于其规模。大多数现有的数学数据集从像“问题解决艺术”(Art of Problem Solving, AoPS)这样的社区论坛中提取问题,而 MathNet 仅从官方全国竞赛手册中汲取问题。这些手册中的解答由专家撰写并经过同行评审,往往长达数页,作者会逐步展示解决同一问题的多种方法。这种深度为人工智能模型学习数学推理提供了比社区来源数据集中常见的简短、非正式解答丰富得多的信号。这也意味着该数据集对学生真正有用:任何准备参加 IMO 或全国竞赛的人现在都可以访问一个集中化、可搜索的高质量问题和详细解答库,涵盖世界各地的不同传统。 “我记得有很多学生都是独自努力。在他们所在的国家,没有人培训他们参加这类竞赛,”曾以学生身份参加过 IMO 的 Alshammari 说。“我们希望这能给他们提供一个集中化的场所,让他们可以学习高质量的问题和解答。” 该团队在 IMO 社区有着深厚的根基。合作作者 Sultan Albarakati 目前担任 IMO 董事会成员,研究人员正努力直接将数据集与 IMO 基金会分享。为了验证数据集,他们组建了一个由超过 30 名来自亚美尼亚、俄罗斯、乌克兰、越南和波兰等国家的评估人员组成的评分小组,他们协同合作以验证数千个解答。 “MathNet 数据库有潜力成为学生和寻找新问题或难题解答的领导者们的优秀资源,”瑞士 IMO 副领队 Tanish Patil 说。“虽然目前确实存在其他奥林匹克问题档案(特别是 AoPS 上的 Contest Collections 论坛),但这些资源缺乏标准化的格式系统、经过验证的解答以及主题和理论所需的重要问题元数据。还将很有趣地看到这个数据集如何被用于提高推理模型的性能,以及我们是否很快就能可靠地解决在创建新颖奥林匹克问题时面临的一个重要问题:判断一个问题是否真正具有原创性。” MathNet 还作为衡量 AI 性能的严格基准,其结果揭示的图景比近期关于 AI 数学能力的新标题所暗示的要复杂得多。前沿模型取得了非凡的进展:据报道,一些模型已在 IMO 中达到金牌水平,在标准基准测试中,它们现在能解决令大多数人类束手无策的问题。但 MathNet 显示,这种进步是不均衡的。即使是测试中表现最好的模型 GPT-5,在 MathNet 包含 6,400 个问题的主要基准测试中平均得分约为 69.3%,在将近三分之一的奥林匹克级别问题上失败。当问题包含图表时,整体性能显著下降,暴露出即使是能力最强的模型,视觉推理也是一个持续的弱点。 几个开源模型在蒙古语问题上得分为 0%,凸显了当前 AI 系统尽管整体强大,但在另一个维度上的不足。 “GPT 模型在英语和其他语言上表现同样出色,”Alshammari 说。“但许多开源模型在像蒙古语这样的小语种上完全失败。” MathNet 的多样性还旨在解决 AI 模型学习数学方面更深层的局限性。当训练数据偏向英语和中文问题时,模型吸收的只是一小部分数学文化。一个罗马尼亚的组合数学问题或一个巴西的数论问题可能会从完全不同的角度接近相同的底层概念。研究人员认为,接触这种多样性,使人类和 AI 系统都能成为更好的数学思考者。 除了问题解决,MathNet 还引入了一个检索基准,询问模型是否能识别两个问题是否共享相同的底层数学结构,这一能力对 AI 发展和数学社区本身都至关重要。多年来,近重复问题曾出现在真实的 IMO 考试中,因为跨越不同的符号、语言和格式寻找数学等价性确实很难,即使是专家人类委员会也是如此。在测试八种最先进的嵌入模型时,研究人员发现,即使在第一次尝试中,最强的模型也只有约 5% 的时间能正确识别匹配项,模型经常将结构上不相关的问题排名为比等价问题更相似。 该数据集还包括一个检索增强生成基准,测试在要求模型解决新问题之前,为其提供一个结构上相关的问题是否能提高性能。结果确实如此,但仅当检索到的问题真正相关时才有效。DeepSeek-V3.2-Speciale 通过良好的匹配检索获得了高达 12 个百分点的提升,而无关的检索在约 22% 的情况下降低了性能。 Alshammari 与 Safaei、HUMAIN AI 工程师 Abrar Zainal、KAUST 学院院长 Sultan Albarakati 以及麻省理工学院 CSAIL 的同事共同撰写了这篇论文:硕士生 Kevin Wen SB ’25;微软首席工程经理 Mark Hamilton SM ’22,博士 ‘25;以及教授 William Freeman 和 Antonio Torralba。他们的工作部分由 Schwarzman 计算学院奖学金和美国国家科学基金会资助。 MathNet 已公开可用,访问地址为:mathnet.csail.mit.edu (https://mathnet.csail.mit.edu/)。

相似文章

MathNet:一个面向数学推理与检索的全球多模态基准

Hugging Face Daily Papers

# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。

解决(部分)形式化数学奥林匹克问题

OpenAI Blog

# 解决(部分)形式化数学奥林匹克问题 来源:[https://openai.com/index/formal-math/](https://openai.com/index/formal-math/) 我们在 [miniF2F](https://arxiv.org/abs/2109.00110) 基准测试上实现了新的最先进成果(41.2% vs 29.3%),这是一个具有挑战性的高中奥林匹克问题集合。我们的方法称为*语句课程学习*,包括手动收集一组难度级别不同的陈述(不含证明)

低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究

arXiv cs.CL

本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。

AI 协作者数学家:利用代理式 AI 加速数学家的研究

Hugging Face Daily Papers

本文介绍了 AI 协作者数学家(AI Co-Mathematician),这是一个利用代理式 AI 支持数学家进行构思和定理证明等开放式研究任务的工作台。早期测试表明,该系统在困难的问题解决基准测试中取得了最先进的结果,包括在 FrontierMath Tier 4 中获得了 48% 的得分。