解决(部分)形式化数学奥林匹克问题

OpenAI Blog 论文

摘要

# 解决(部分)形式化数学奥林匹克问题 来源:[https://openai.com/index/formal-math/](https://openai.com/index/formal-math/) 我们在 [miniF2F](https://arxiv.org/abs/2109.00110) 基准测试上实现了新的最先进成果(41.2% vs 29.3%),这是一个具有挑战性的高中奥林匹克问题集合。我们的方法称为*语句课程学习*,包括手动收集一组难度级别不同的陈述(不含证明)

我们为 Lean 构建了一个神经定理证明器,它学会了解决各种具有挑战性的高中奥林匹克问题,包括来自 AMC12 和 AIME 竞赛的问题,以及改编自 IMO 的两个问题。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:55

# 解决(部分)正式数学奥林匹克问题 来源:https://openai.com/index/formal-math/ 我们在 miniF2F(https://arxiv.org/abs/2109.00110)基准测试上取得了最新的最先进成绩(41.2% vs 29.3%),这是一个具有挑战性的高中奥林匹克问题集合。我们的方法称为**陈述课程学习**,包括手动收集一组难度各异的陈述(不包括证明),其中最难的陈述类似于我们的目标基准。最初,我们的神经证明器很弱,只能证明其中少数几个。我们迭代地搜索新的证明,并在新发现的证明上重新训练我们的神经网络,经过 8 次迭代后,我们的证明器在 miniF2F 测试中表现得极其出色。 形式数学是一个令人兴奋的研究领域,因为:(i) 它的丰富性,允许你证明任意的定理,这些定理需要推理、创意和洞察力;(ii) 它与游戏的相似性——人工智能在游戏领域取得了巨大成功——在于它有一种自动化的方式来确定证明是否成功(即由形式系统验证)。如下面的琐碎例子所示,证明一个形式陈述需要生成一系列证明步骤,每个证明步骤包括对一个策略的调用。B(https://openai.com/index/formal-math/#citation-bottom-B) 这些策略以数学术语作为参数,每个策略调用将把当前需要证明的陈述转换为更容易证明的陈述,直到没有任何东西需要证明为止。

相似文章

解决数学应用题

OpenAI Blog

OpenAI 训练了一个使用验证器的系统来解决小学数学应用题,准确率达到儿童水平的 90%,性能几乎是微调后的 GPT-3 的两倍。该方法通过训练验证器来评估候选解决方案并选择最佳方案,解决了语言模型在多步推理中的弱点。

我们首次提交的 First Proof 证明

OpenAI Blog

OpenAI 为 First Proof 挑战提交了证明尝试,该挑战是一项研究级别的数学竞赛,旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题(共十个),展示了其在持续推理和严谨数学思维方面的显著进展。