How a reasoning model cracked an 80-year-old math problem — the OpenAI Podcast Ep. 20

YouTube AI Channels 新闻

reasoning-model mathematics unit-distance-conjecture breakthrough openai combinatorial-geometry

摘要

OpenAI推理模型成功构造反例，证伪存在80年的埃尔德什单位距离猜想，展现了通用模型解决开放数学问题的能力。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/05 07:33

### TL;DR OpenAI 的一个推理模型（类似 o1 的后续版本）成功构造反例，证伪了存在 80 年的埃尔德什单位距离猜想，展示了通用模型在开放数学问题上的突破性能力。 ## 背景与团队介绍本期 OpenAI 播客邀请到推理研究团队的 Alexander Wei、Hongxun Wu 和 Lijie Chen。他们分享了一项近期成果：模型解决了组合几何领域著名的埃尔德什单位距离猜想。 - **Lijie Chen**：曾在伯克利担任助理教授，因看到 Alex 在 IMO/IOI 上的突破而加入 OpenAI，专注于推理方向。 - **Alexander Wei**：博士研究方向是机器学习，后在 OpenAI 参与推理时计算（test-time compute）的研究。 - **Hongxun Wu**：理论计算机科学背景，与 Lijie 在伯克利期间合作密切，加入 OpenAI 后主要研究推理模型的上限。 ## 推理时计算：让模型“思考更久” 传统模型给出即时回答，而推理时计算允许模型在给出最终答案前尝试多种方法、自我修正。Alex 解释： > “以前模型会立即回答，也就是不假思索。推理时计算现在给模型一个机会去思考、改进答案、尝试不同方法，然后再最终输出结果。” 这种机制让模型能解决那些直接回答无法处理的问题。 ## 从 IMO 金牌到开放问题：进展快得惊人团队最初的目标是让模型在 IMO（国际数学奥林匹克）中获得金牌。2023 年底模型连小学水平都吃力，但到 2024 年 6 月已获得 IMO 金牌。Alex 回忆： > “我记得上班第一天 Nolan Brown 问我什么时候模型能拿 IMO 金牌。当时很多人觉得 2026 年才可能，但我心里觉得四月之前或许能做到。实际上六月才拿到优秀的模型……现在回头看，IMO 级别的难题对今天的 AI 来说已经像后视镜里的风景了。” Hongxun 补充： > “当 o1 发布时，我跟导师说：‘模型解决数学问题的障碍已经不存在了。’他笑了笑，知道他要失去一个学生了。” ## 攻克 80 年悬而未决的埃尔德什单位距离猜想 ### 问题是什么单位距离猜想由数学家保罗·埃尔德什提出：在平面上放置 \(n\) 个点，最多能有多少对点之间距离恰好为 1 英寸？埃尔德什猜测，最优构造是方形网格（单位正方形网格），得到约 \(O(n^{1+c/\log\log n})\) 对单位距离。 ### 模型的反例 OpenAI 模型发现方形网格远非最优，并构造了一个基于类域论（class field theory）的新几何结构，得到更好的渐近结果。这个构造此前从未被人类提出过。团队中的 Alexander 和 Hongxun 同时按下回车键，向两个不同内部模型提问，都得到了类似的正解。 ### 验证过程模型先自我检查，随后团队咨询了公司内研究数学的同事 Mehtaab 和 Mark Sellke。起初他们认为“这不可能是真的”，但经过一天思考找不到错误后，相信概率从 5% 升至 50%，最终确信。Lijie 描述： > “每个人难以入睡，因为这太令人兴奋了……这是可以发表在顶级数学期刊上的成果。” ## 通用模型的意外能力值得注意的是，这个模型并非为数学专门训练，而是通用推理模型。团队只是“带新模型出去试驾”，用它测试挑战性的数学问题。Hongxun 表示： > “我让模型去做某件事，然后去吃午饭。回来时发现它做得比我预想的好得多……这个模型真的很了不起。” ## 模型如何使用外部资源该模型在解决问题时，像普通 ChatGPT 一样可以浏览网页、编写并执行 Python 代码。但它甚至做出了一些有趣的小动作：Lijie 提到，模型进入网站后第一件事是查词典，确认“unit”（单位）一词的意思（有点搞笑）。 ## 人们对突破的反应 - 学术圈非常积极，许多 TCS 朋友开始向团队提出自己遇到的开放问题，包括 Hongxun 的导师也给了两三个难题。 - 模型构造的几何图形十分对称漂亮，有人尝试画出草图。团队考虑将图形裱起来放在桌上或办公室里作为纪念。 - 埃尔德什曾为这个问题悬赏 500 美元（20 世纪中期），现在奖励可能由专门机构管理。团队玩笑说“把支票裱起来放在 Sam 的办公室里”。 ## 推理能力的证明官方博客中的一张图显示：给模型更多时间思考，正确率增长更快。Alex 总结：“更多的思考带来更高的正确率——这本身就是推理有效性的证明。” ## 展望与局限尽管模型在开放问题上取得惊人进展，但面对像 P vs NP 这样的根本性问题，团队仍保持谨慎。Lijie 认为： > “要解决 P vs NP，需要建立一套全新的理论，写出许多本书的新想法。目前看起来还差得很远。但谁知道未来会发生什么呢？” Hongxun 则对推理方向充满信心：“在很短一段时间之前，人们还说模型不擅长数学，现在模型正在做这样的事情。这证明了前沿 AI 确实能产出许多人类数学家会引以为傲的成果。” ## 来源 [OpenAI 播客：How a reasoning model cracked an 80-year-old math problem](https://www.youtube.com/watch?v=wNWz5Hbh5VQ)

How a reasoning model cracked an 80-year-old math problem — the OpenAI Podcast Ep. 20

相似文章

@OpenAI: 在 Spotify 上收听 OpenAI 播客 — https://open.spotify.com/episode/3ca5s3o53D5xcEKmKgLLGj?si=4a9a555641fa4293… A…

@OpenAI: 当我们的一个模型发现了一个有80年历史的Erdős猜想的反例时，发生了什么？研究人员@alexwei_……

OpenAI 声称解决了80年前的数学难题——这次是真的

OpenAI模型解决困扰人类80年的著名数学难题

OpenAI通用推理模型在著名的80年之久的埃尔德什问题上取得突破。“这标志着人工智能首次自主解决了一个数学领域的核心开放难题”

提交意见反馈