我最近使用 ChatGPT 5.5 Pro 的一次体验

Hacker News Top 新闻

摘要

数学家 Timothy Gowers 讲述了 ChatGPT 5.5 Pro 如何在约一小时内、几乎不需要人工干预的情况下,产出了博士级别的数学研究成果——解决了一篇组合数学/加法数论论文中的若干开放问题。这一经历促使他大幅修正了对大语言模型数学能力的评估。

<a href="https://twitter.com/wtgowers/status/2052830948685676605" rel="nofollow">https://twitter.com/wtgowers/status/2052830948685676605</a><p><a href="https://xcancel.com/wtgowers/status/2052830948685676605" rel="nofollow">https://xcancel.com/wtgowers/status/2052830948685676605</a>
查看原文
查看缓存全文

缓存时间: 2026/05/09 06:32

# 近期与 ChatGPT 5.5 Pro 的一次体验 来源:https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/ 我们都不得不不断上调对大语言模型数学能力的评估。最近,我对此做出了一次较大幅度的上调——ChatGPT 5.5 Pro(我有幸获得了使用权)在约一小时内完成了一项博士级别的研究,而我几乎没有提供任何实质性的数学帮助。 背景如下:正如已被广泛报道的那样,大语言模型现在已能够解决研究级别的问题,并成功解决了 Thomas Bloom 精彩网站(https://www.erdosproblems.com/)上列出的若干 Erdős 问题。起初,这些成果还可以一笑置之:许多"解答"不过是 LLM 发现该问题在文献中早有现成答案,或者可以从已知结果轻易推导出来。但渐渐地,笑声变得越来越小。从其他更深入参与这项工作的数学家那里,我得到的信息是:LLM 已经达到这样的水平——如果某个问题存在一个人类数学家因某种原因忽略的简单论证(有时是因为该问题关注度不高,但并非总是如此),那么 LLM 很有可能能够发现它。反过来,对于那些乍看之下令人惊叹 LLM 能提出巧妙论证的问题,仔细检查后往往会发现这些论证都有先例,因此仍然可以勉强安慰自己:LLM 不过是在整合现有知识,而非真正产生原创性想法。这种安慰究竟有多大价值,我在此不予讨论,只是想指出:相当多的优秀人类数学研究,本身也是在整合现有知识和证明技巧。 我决定尝试一些稍有不同的东西。至少在组合数学领域,有相当多的论文研究某个相对新颖的组合参数,并由此自然引出若干问题。由于可提出的问题数量众多,此类论文的作者未必有时间对每个问题深思熟虑一两周,因此其中至少有些问题很可能并不太难。这使得此类论文对初次从事研究的数学家极具价值——解决一个正式开放的问题会极大地激励他们。或者说,过去是这样的。但如今门槛似乎刚刚被拉高了。仅仅提出一个问题已经不够:这个问题必须难到 LLM 无法解决才行。 总之,一周多前,我决定测试 ChatGPT 5.5 Pro 能否应对 Mel Nathanson 在一篇题为《加法数论问题中的多元、公平与包容》(https://arxiv.org/abs/2603.15556)的论文中提出的若干问题。Nathanson 有一个令人瞩目的记录:他长期关注的问题和定理,后来往往变得极为热门,这使他撰写了一系列时机极佳、影响深远的教材。在这篇论文中,他论证了若干其他问题的趣味性,我将在下文简要描述其中几个。 若 $A$ 是一个整数集合,则其**和集** $A+A$ 定义为 $\{a+b : a, b \in A\}$。对于正整数 $h$,**$h$ 重和集**记作 $hA$,定义为 $\{a_1 + \dots + a_h : a_1, \dots, a_h \in A\}$。Nathanson 关注的是在给定 $|A|$ 的情况下 $hA$ 的可能大小。为此,可以定义集合 $\mathcal{R}(h,k)$ 为所有满足"存在集合 $A$ 使得 $|A|=k$ 且 $|hA|=t$"的 $t$ 的集合。 一个显而易见的首要问题是"$\mathcal{R}(h,k)$ 究竟是什么?"当 $h=2$ 时,答案是 $2k-1$ 到 $\binom{k+1}{2}$ 之间的所有整数。不难验证,若 $|A|=k$,则 $2k-1 \leq |A| \leq \binom{k+1}{2}$,因此该结果说明中间所有大小均可实现。然而,一般情况下 $hA$ 未必能取到最小值与最大值之间的每一个大小,目前我们尚未对 $\mathcal{R}(h,k)$ 给出完整描述。 另一个自然可以提出的问题——也正是 ChatGPT 介入之处——是:若想让集合 $A$ 及其 $h$ 重和集 $hA$ 具有给定的大小,需要多大的直径?(当然,$hA$ 的大小必须属于 $\mathcal{R}(h,k)$。)Nathanson 证明了:对每个 $t \in [2k-1, \binom{k+1}{2}]$,存在 $\{0,1,2,\dots,2^k-1\}$ 的子集 $A$,满足 $|A|=k$ 且 $|A+A|=t$,并追问界 $2^k-1$ 是否可以改进。ChatGPT 5.5 Pro 思考了 17 分 5 秒,给出了一个构造,将上界改进为二次界,而这显然是最优的。它写出的论证风格略显冗长,带有典型的 LLM 气息,于是我请它将论证整理成一个 LaTeX 文件,写成典型数学预印本的风格。两分 23 秒后,它交出了这份文件,随后我花了一些时间验证论证的正确性。 Nathanson 的论证与 ChatGPT 的论证背后的基本思路相同:为了构造给定大小且和集也具有给定大小的集合,一个有用的方法是将其由 Sidon 集(即和集大小最大的集合——这不完全是通常的定义,但在本文讨论中最为简洁)和一个等差数列组合而成。此外,为了精细调整,可以在等差数列附近额外添加一个点。然后通过调节各个参数,便可以获得所有所需大小的集合。Nathanson 并没有以这种方式表述他的论证(见[这篇论文](https://arxiv.org/pdf/2411.02365)的定理 5),而是给出了归纳论证,但我认为——未经仔细核查——如果将他的论证展开,实际上得到的正是这种构造,其中用到的 Sidon 集由 2 的幂次构成。ChatGPT 的改进则是简单地使用了一个更高效的 Sidon 集——众所周知,可以找到直径为二次量级的 Sidon 集。(有人可能会问为什么 Nathanson 没有从一开始就这样做:我认为,只有在将他的归纳构造重新描述之后,使用更高效的 Sidon 集这一显而易见的想法才会变得显而易见。ChatGPT 是否就是这样做的?这很难说。) 接下来,我让 ChatGPT 尝试对一个密切相关的问题做同样的事情:将对和集大小的考察换成对**限制和集**大小的考察,限制和集定义为 $\{a+b : a, b \in A, a \ne b\}$。不出所料,它毫无困难地完成了这一任务。我让它将两个结果整合到一篇短文中,以避免不必要的重复。如果你感兴趣,可以[在此查看这篇短文](https://drive.google.com/file/d/11r-ggU__GMmHIrgEHQVULUIR1VxKSwmi/view?usp=drive_link)。 随后,我问它对一般的 $h$ 能做什么。我对它能否有所作为并不乐观,因为 $h=2$ 情形的证明从根本上依赖于一个事实(由 Erdős 和 Szemerédi 给出):我们确切知道需要构造哪些大小。如果我们不知道 $\mathcal{R}(h,k)$ 是什么,那么似乎只能从一个假设的集合 $A$(满足 $|A|=k$ 且 $|hA|=t$)出发,构造出具有相同性质但直径更小的集合。碰巧的是,我至今仍不知道如何绕过这一困难(我提及这一点,只是为了说明我的数学贡献为零,我甚至没有在提示词上动什么脑筋)。但 Nathanson 在论文中提到了 MIT 学生 Isaac Rajagopal 的一篇出色论文——他一定以某种方式绕过了这一困难,因为他已经成功证明了对每个固定的 $h$,$\mathcal{R}(h,k)$ 的上界关于 $k$ 是指数级的。 我先把上一段放在这里,但 Isaac 随后向我解释,那其实并不是真正的困难所在。他的论证对充分大的 $k$ 给出了 $\mathcal{R}(h,k)$ 的完整刻画,而若要对固定的 $h$ 证明多项式依赖性,假设 $k$ 充分大显然是允许的。真正的困难在于:构造具有给定和集大小的集合要复杂得多,而且这种复杂性是本质性的——因为所需多项式的次数随 $h$ 增长,因此需要越来越多的参数来定义这些集合。 总之,ChatGPT 面临的任务不是从头解决问题,而是看看能否改进 Isaac Rajagopal 的论证。以下是经过的过程。 1. 经过 16 分 41 秒的思考,它给出了一个论证,声称将上界从关于 $k$ 的指数改进为关于 $k^\alpha$(任意 $\alpha > 1/2$)的指数。 2. 我请它也将其整理成预印本形式,又花了 47 分 39 秒。 3. 这篇预印本对我来说不易阅读,因为那意味着要先仔细研读 Rajagopal 的论文,但我将其发给了 Nathanson,后者转发给了 Rajagopal,Rajagopal 表示他认为看起来是正确的。 4. ChatGPT 和 Rajagopal 都对如何进一步改进以获得多项式界做了一些推测,于是我贪心地请 ChatGPT 尝试一下。 5. 经过 13 分 33 秒,它告诉我,它对这样一个论证的存在感到乐观,但有几个技术性命题需要验证。 6. 我请它进行验证。 7. 经过 9 分 12 秒,它回复说验证已完成,于是我请它也将这部分整理成预印本形式。 8. 经过 31 分 40 秒,"预印本"完成了。[点击此处查看。](https://drive.google.com/file/d/1IkJBcWYz_3J_QGsESBmMa-jrEHAJDcJB/view?usp=sharing) 9. Isaac Rajagopal 看过之后,认为其几乎可以确定是正确的。显然,他的意思不仅仅是逐行验证层面,更是在思路层面上的认可。 Isaac 就 ChatGPT 所贡献的额外想法的本质作出了一些非常有趣的评述。正如我已经说过的,我的数学贡献为零,因此我邀请他为本文撰写一个客座章节。在进入那部分之前,我想提出一个(无疑已被其他人提过的)简单问题:对于这类内容,我们应该怎么处理?如果这一结果是由人类数学家给出的,它毫无疑问可以发表,因此我认为将其称为"AI 垃圾"是不恰当的。另一方面,将其投稿到期刊似乎毫无意义,因为它可以免费获取,而且没有人需要为此"获得学术认可"(Isaac 为构建 ChatGPT 得以发挥的框架理应获得大量认可)。我了解 arXiv 有拒绝接受 AI 撰写内容的政策,这在我看来是合理的。因此,也许应该建立一个不同的存储库,专门用于存放 AI 生成的结果。但这需要做出一系列决策,关于如何组织。我个人认为,可能需要某种形式的审核流程,使得只有在人类数学家愿意证明结果正确的情况下——或者更理想的是经过证明助手形式化验证的情况下,并且可能还需要证明其回答了某篇人类撰写论文中提出的问题——才予以收录。另一方面,我不希望审核流程产生大量工作(除非工作本身由 AI 完成,但这条路显然有明显的风险)。总之,在这些问题得到解答之前,这一结果可通过上面的链接获取,也许既然 LLM 在文献检索方面已经如此出色,这已经足以让任何想知道 Nathanson 问题是否已被解决的人找到它。 ## Isaac 对 ChatGPT 成果的评价 仅凭几条提示,ChatGPT 就能够将 $N(h,k)$(我很快会给出定义)的上界从关于 $k$ 的指数级改进为多项式级。其中,将上界从指数级改进为 $k^{\frac{1}{2}+\varepsilon}$ 的指数级,不过是对我工作的常规修改;而改进到关于 $k$ 的多项式级,则相当令人印象深刻。为此,ChatGPT 提出了一个原创且巧妙的想法——这种想法即便我苦思冥想一两周后能想到,我也会引以为豪,而 ChatGPT 在不到一小时内就找到并完成了证明,所用方法与我自己的证明相近。我的目标是解释这一想法,使其对我学计算机科学的朋友和学数学的朋友都能消化理解。 $N(h,k)$ 的界的问题与我在 Duluth REU(本科生科研体验)项目中研究的确定 $\mathcal{R}(h,k)$ 的问题密切相关。具体而言,$\mathcal{R}(h,k)$ 是 $h$ 重和集大小 $|hA|$ 的所有可能值的集合,其中 $A$ 可以是任意 $k$ 个整数构成的集合。$N(h,k)$ 是最小的 $N$,使得我们可以利用满足 $A \subset \{0,1,2,\ldots,N\}$ 的 $k$ 元集 $A$ 实现 $\mathcal{R}(h,k)$ 中的所有值。我去年夏天通过显式刻画,对充分大的 $k$ 给出了 $\mathcal{R}(h,k)$ 的完整描述,方法是构造 $A$ 使得 $|hA|$ 取到所有我无法排除为不可能的大小。因此,通过优化我的构造,可以给出 $N(h,k)$ 的上界。 我构造这些集合 $A$ 的方法是将若干更易分析的小的分量集合组合在一起。其中一些分量是等比数列 $$S = \{0,1,m,m^2,\ldots,m^{\ell-2}\} \quad \text{以及} \quad T = \{1,m,m^2,\ldots,m^{\ell-1}\} \qquad (1)$$ 其中 $2 \leq m \leq h$,$2 \leq \ell \leq k$。不幸的是,$S$ 和 $T$ 的元素关于 $k$ 是指数级大的。因此,我(通过 Tim)问 ChatGPT:是否存在含 $\ell$ 个元素的集合,其和集大小与这些等比数列相近,但元素仅为 $\ell$ 的多项式量级?我完全不知道这是否可能,也不知道从何入手构造这样的集合。ChatGPT 给出了答案,构造了集合 $G$ 和 $H$,其行为类似于"被压缩进多项式区间的半个等比数列"——这是违反直觉的。在讨论 $G$ 和 $H$ 的构造之前,我先解释 $S$ 和 $T$ 的和集大小所具备的、$G$ 和 $H$ 需要重现的重要性质。 对于 $h > 0$,若集合 $A$ 满足方程 $$x_1 + \cdots + x_h = y_1 + \cdots + y_h$$ (其中 $x_i, y_i \in A$)的唯一解是"平凡"解(即方程一侧是另一侧的重排),则称 $A$ 为 $B_h$ 集。若 $A$ 是大小为 $\ell$ 的 $B_h$ 集,则 $hA$ 的元素与从 $A$ 中有放回地选取 $h$ 个元素的方案一一对应。利用"星与条"方法,可以得到 $|hA| = \binom{h+\ell-1}{h}$,这也是大小为 $\ell$ 的集合的 $|hA|$ 所能达到的最大值。因此,另一种定义是:$A$ 是 $B_h$ 集当且仅当 $|hA| = \binom{h+|A|-1}{h}$。Tim 所说的 Sidon 集,正是 $B_2$ 集。 为使讨论更具体,设 $(1)$ 中 $m=4$。则 $S$ 是 $B_3$ 集,但不是 $B_4$ 集,因为存在关系式 $$4^a + 4^a + 4^a + 4^a = 4^{a+1} + 0 + 0 + 0 \qquad (2)$$ 对 $\{0,1,2,\ldots,\ell-3\}$ 中任意 $a$ 均成立。特别地,$\binom{\ell+3}{4} - |4S| = \ell-2$,因为这 $\ell-2$ 个关系式是阻止 $S$ 成为 $B_4$ 集的全部原因。$T$ 不包含 $(2)$ 中的关系式,因为 $0 \notin T$。因此,$T$ 是 $B_4$ 集,但不是 $B_5$ 集,因为存在关系式 $$4^a + 4^a + 4^a + 4^a + 4^{b+1} = 4^{a+1} + 4^b + 4^b + 4^b + 4^b \qquad (3)$$ 对 $\{0,1,2,\ldots,\ell-2\}$ 中任意 $a \ne b$ 均成立。这给出了 $\binom{\ell-1}{2}$ 个关系式,可以验证 $\binom{\ell+4}{5} - |5T| = \binom{\ell-1}{2}$。综上,我们已经看到 $(a)$

相似文章

GPT-5 与数学发现的未来

OpenAI Blog

GPT-5 帮助数学家 Ernest Ryu 解决了一个困扰优化理论40年的开放问题,涉及 Nesterov 加速梯度法的稳定性性质。这一突破展示了大型语言模型通过从数学文献中提取相关技术和思想来辅助重大数学发现的能力。

用GPT-5.2推进科学与数学

OpenAI Blog

OpenAI发布了GPT-5.2,包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond(93.2%)和FrontierMath(40.3%)等基准测试中达到了最先进的性能,展现出更强的推理能力,旨在加速物理、化学、生物和数学等领域的科学研究。