解决(部分)形式化数学奥林匹克问题
摘要
# 解决(部分)形式化数学奥林匹克问题 来源:[https://openai.com/index/formal-math/](https://openai.com/index/formal-math/) 我们在 [miniF2F](https://arxiv.org/abs/2109.00110) 基准测试上实现了新的最先进成果(41.2% vs 29.3%),这是一个具有挑战性的高中奥林匹克问题集合。我们的方法称为*语句课程学习*,包括手动收集一组难度级别不同的陈述(不含证明)
查看缓存全文
缓存时间: 2026/04/20 14:55
相似文章
解决数学应用题
OpenAI 训练了一个使用验证器的系统来解决小学数学应用题,准确率达到儿童水平的 90%,性能几乎是微调后的 GPT-3 的两倍。该方法通过训练验证器来评估候选解决方案并选择最佳方案,解决了语言模型在多步推理中的弱点。
Pythagoras-Prover:通过增强型Lean形式化方法推进高效形式化证明
Pythagoras-Prover 是一个计算高效的Lean定理证明器系列,通过课程监督微调和新颖的增强型Lean形式化技术实现了强劲性能。4B模型在MiniF2F-Test上以pass@32超越了DeepSeek-Prover-V2-671B,32B模型则在开源证明器中树立了新的最先进水平。
我们首次提交的 First Proof 证明
OpenAI 为 First Proof 挑战提交了证明尝试,该挑战是一项研究级别的数学竞赛,旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题(共十个),展示了其在持续推理和严谨数学思维方面的显著进展。
@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…
谷歌新论文提出LEAP框架,一种智能体框架,使通用大语言模型能够通过规划证明并检查每一步来解决形式化数学问题,在Lean IMO基准测试上将性能从低于10%提升至70%,并解决了所有2025年的Putnam问题。
OpenAI 声称解决了80年前的数学难题——这次是真的
OpenAI 声称其新推理模型自主生成了一个原创数学证明,推翻了保罗·埃尔德什(Paul Erdős)一个80年未解的几何猜想。这标志着人工智能首次解决了一个数学领域核心的著名开放问题。