我最近使用 ChatGPT 5.5 Pro 的一次体验

Hacker News Top 2026/05/09 02:41 新闻

llm-capabilities mathematics chatgpt ai-research reasoning benchmark

摘要

数学家 Timothy Gowers 讲述了 ChatGPT 5.5 Pro 如何在约一小时内、几乎不需要人工干预的情况下，产出了博士级别的数学研究成果——解决了一篇组合数学/加法数论论文中的若干开放问题。这一经历促使他大幅修正了对大语言模型数学能力的评估。

<a href="https://twitter.com/wtgowers/status/2052830948685676605" rel="nofollow">https://twitter.com/wtgowers/status/2052830948685676605</a><p><a href="https://xcancel.com/wtgowers/status/2052830948685676605" rel="nofollow">https://xcancel.com/wtgowers/status/2052830948685676605</a>

查看原文

查看缓存全文

缓存时间: 2026/05/09 06:32

# 近期与 ChatGPT 5.5 Pro 的一次体验来源：https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/ 我们都不得不不断上调对大语言模型数学能力的评估。最近，我对此做出了一次较大幅度的上调——ChatGPT 5.5 Pro（我有幸获得了使用权）在约一小时内完成了一项博士级别的研究，而我几乎没有提供任何实质性的数学帮助。背景如下：正如已被广泛报道的那样，大语言模型现在已能够解决研究级别的问题，并成功解决了 Thomas Bloom 精彩网站（https://www.erdosproblems.com/）上列出的若干 Erdős 问题。起初，这些成果还可以一笑置之：许多"解答"不过是 LLM 发现该问题在文献中早有现成答案，或者可以从已知结果轻易推导出来。但渐渐地，笑声变得越来越小。从其他更深入参与这项工作的数学家那里，我得到的信息是：LLM 已经达到这样的水平——如果某个问题存在一个人类数学家因某种原因忽略的简单论证（有时是因为该问题关注度不高，但并非总是如此），那么 LLM 很有可能能够发现它。反过来，对于那些乍看之下令人惊叹 LLM 能提出巧妙论证的问题，仔细检查后往往会发现这些论证都有先例，因此仍然可以勉强安慰自己：LLM 不过是在整合现有知识，而非真正产生原创性想法。这种安慰究竟有多大价值，我在此不予讨论，只是想指出：相当多的优秀人类数学研究，本身也是在整合现有知识和证明技巧。我决定尝试一些稍有不同的东西。至少在组合数学领域，有相当多的论文研究某个相对新颖的组合参数，并由此自然引出若干问题。由于可提出的问题数量众多，此类论文的作者未必有时间对每个问题深思熟虑一两周，因此其中至少有些问题很可能并不太难。这使得此类论文对初次从事研究的数学家极具价值——解决一个正式开放的问题会极大地激励他们。或者说，过去是这样的。但如今门槛似乎刚刚被拉高了。仅仅提出一个问题已经不够：这个问题必须难到 LLM 无法解决才行。总之，一周多前，我决定测试 ChatGPT 5.5 Pro 能否应对 Mel Nathanson 在一篇题为《加法数论问题中的多元、公平与包容》（https://arxiv.org/abs/2603.15556）的论文中提出的若干问题。Nathanson 有一个令人瞩目的记录：他长期关注的问题和定理，后来往往变得极为热门，这使他撰写了一系列时机极佳、影响深远的教材。在这篇论文中，他论证了若干其他问题的趣味性，我将在下文简要描述其中几个。若 $A$ 是一个整数集合，则其**和集** $A+A$ 定义为 $\{a+b : a, b \in A\}$。对于正整数 $h$，**$h$ 重和集**记作 $hA$，定义为 $\{a_1 + \dots + a_h : a_1, \dots, a_h \in A\}$。Nathanson 关注的是在给定 $|A|$ 的情况下 $hA$ 的可能大小。为此，可以定义集合 $\mathcal{R}(h,k)$ 为所有满足"存在集合 $A$ 使得 $|A|=k$ 且 $|hA|=t$"的 $t$ 的集合。一个显而易见的首要问题是"$\mathcal{R}(h,k)$ 究竟是什么？"当 $h=2$ 时，答案是 $2k-1$ 到 $\binom{k+1}{2}$ 之间的所有整数。不难验证，若 $|A|=k$，则 $2k-1 \leq |A| \leq \binom{k+1}{2}$，因此该结果说明中间所有大小均可实现。然而，一般情况下 $hA$ 未必能取到最小值与最大值之间的每一个大小，目前我们尚未对 $\mathcal{R}(h,k)$ 给出完整描述。另一个自然可以提出的问题——也正是 ChatGPT 介入之处——是：若想让集合 $A$ 及其 $h$ 重和集 $hA$ 具有给定的大小，需要多大的直径？（当然，$hA$ 的大小必须属于 $\mathcal{R}(h,k)$。）Nathanson 证明了：对每个 $t \in [2k-1, \binom{k+1}{2}]$，存在 $\{0,1,2,\dots,2^k-1\}$ 的子集 $A$，满足 $|A|=k$ 且 $|A+A|=t$，并追问界 $2^k-1$ 是否可以改进。ChatGPT 5.5 Pro 思考了 17 分 5 秒，给出了一个构造，将上界改进为二次界，而这显然是最优的。它写出的论证风格略显冗长，带有典型的 LLM 气息，于是我请它将论证整理成一个 LaTeX 文件，写成典型数学预印本的风格。两分 23 秒后，它交出了这份文件，随后我花了一些时间验证论证的正确性。 Nathanson 的论证与 ChatGPT 的论证背后的基本思路相同：为了构造给定大小且和集也具有给定大小的集合，一个有用的方法是将其由 Sidon 集（即和集大小最大的集合——这不完全是通常的定义，但在本文讨论中最为简洁）和一个等差数列组合而成。此外，为了精细调整，可以在等差数列附近额外添加一个点。然后通过调节各个参数，便可以获得所有所需大小的集合。Nathanson 并没有以这种方式表述他的论证（见[这篇论文](https://arxiv.org/pdf/2411.02365)的定理 5），而是给出了归纳论证，但我认为——未经仔细核查——如果将他的论证展开，实际上得到的正是这种构造，其中用到的 Sidon 集由 2 的幂次构成。ChatGPT 的改进则是简单地使用了一个更高效的 Sidon 集——众所周知，可以找到直径为二次量级的 Sidon 集。（有人可能会问为什么 Nathanson 没有从一开始就这样做：我认为，只有在将他的归纳构造重新描述之后，使用更高效的 Sidon 集这一显而易见的想法才会变得显而易见。ChatGPT 是否就是这样做的？这很难说。）接下来，我让 ChatGPT 尝试对一个密切相关的问题做同样的事情：将对和集大小的考察换成对**限制和集**大小的考察，限制和集定义为 $\{a+b : a, b \in A, a \ne b\}$。不出所料，它毫无困难地完成了这一任务。我让它将两个结果整合到一篇短文中，以避免不必要的重复。如果你感兴趣，可以[在此查看这篇短文](https://drive.google.com/file/d/11r-ggU__GMmHIrgEHQVULUIR1VxKSwmi/view?usp=drive_link)。随后，我问它对一般的 $h$ 能做什么。我对它能否有所作为并不乐观，因为 $h=2$ 情形的证明从根本上依赖于一个事实（由 Erdős 和 Szemerédi 给出）：我们确切知道需要构造哪些大小。如果我们不知道 $\mathcal{R}(h,k)$ 是什么，那么似乎只能从一个假设的集合 $A$（满足 $|A|=k$ 且 $|hA|=t$）出发，构造出具有相同性质但直径更小的集合。碰巧的是，我至今仍不知道如何绕过这一困难（我提及这一点，只是为了说明我的数学贡献为零，我甚至没有在提示词上动什么脑筋）。但 Nathanson 在论文中提到了 MIT 学生 Isaac Rajagopal 的一篇出色论文——他一定以某种方式绕过了这一困难，因为他已经成功证明了对每个固定的 $h$，$\mathcal{R}(h,k)$ 的上界关于 $k$ 是指数级的。我先把上一段放在这里，但 Isaac 随后向我解释，那其实并不是真正的困难所在。他的论证对充分大的 $k$ 给出了 $\mathcal{R}(h,k)$ 的完整刻画，而若要对固定的 $h$ 证明多项式依赖性，假设 $k$ 充分大显然是允许的。真正的困难在于：构造具有给定和集大小的集合要复杂得多，而且这种复杂性是本质性的——因为所需多项式的次数随 $h$ 增长，因此需要越来越多的参数来定义这些集合。总之，ChatGPT 面临的任务不是从头解决问题，而是看看能否改进 Isaac Rajagopal 的论证。以下是经过的过程。 1. 经过 16 分 41 秒的思考，它给出了一个论证，声称将上界从关于 $k$ 的指数改进为关于 $k^\alpha$（任意 $\alpha > 1/2$）的指数。 2. 我请它也将其整理成预印本形式，又花了 47 分 39 秒。 3. 这篇预印本对我来说不易阅读，因为那意味着要先仔细研读 Rajagopal 的论文，但我将其发给了 Nathanson，后者转发给了 Rajagopal，Rajagopal 表示他认为看起来是正确的。 4. ChatGPT 和 Rajagopal 都对如何进一步改进以获得多项式界做了一些推测，于是我贪心地请 ChatGPT 尝试一下。 5. 经过 13 分 33 秒，它告诉我，它对这样一个论证的存在感到乐观，但有几个技术性命题需要验证。 6. 我请它进行验证。 7. 经过 9 分 12 秒，它回复说验证已完成，于是我请它也将这部分整理成预印本形式。 8. 经过 31 分 40 秒，"预印本"完成了。[点击此处查看。](https://drive.google.com/file/d/1IkJBcWYz_3J_QGsESBmMa-jrEHAJDcJB/view?usp=sharing) 9. Isaac Rajagopal 看过之后，认为其几乎可以确定是正确的。显然，他的意思不仅仅是逐行验证层面，更是在思路层面上的认可。 Isaac 就 ChatGPT 所贡献的额外想法的本质作出了一些非常有趣的评述。正如我已经说过的，我的数学贡献为零，因此我邀请他为本文撰写一个客座章节。在进入那部分之前，我想提出一个（无疑已被其他人提过的）简单问题：对于这类内容，我们应该怎么处理？如果这一结果是由人类数学家给出的，它毫无疑问可以发表，因此我认为将其称为"AI 垃圾"是不恰当的。另一方面，将其投稿到期刊似乎毫无意义，因为它可以免费获取，而且没有人需要为此"获得学术认可"（Isaac 为构建 ChatGPT 得以发挥的框架理应获得大量认可）。我了解 arXiv 有拒绝接受 AI 撰写内容的政策，这在我看来是合理的。因此，也许应该建立一个不同的存储库，专门用于存放 AI 生成的结果。但这需要做出一系列决策，关于如何组织。我个人认为，可能需要某种形式的审核流程，使得只有在人类数学家愿意证明结果正确的情况下——或者更理想的是经过证明助手形式化验证的情况下，并且可能还需要证明其回答了某篇人类撰写论文中提出的问题——才予以收录。另一方面，我不希望审核流程产生大量工作（除非工作本身由 AI 完成，但这条路显然有明显的风险）。总之，在这些问题得到解答之前，这一结果可通过上面的链接获取，也许既然 LLM 在文献检索方面已经如此出色，这已经足以让任何想知道 Nathanson 问题是否已被解决的人找到它。 ## Isaac 对 ChatGPT 成果的评价仅凭几条提示，ChatGPT 就能够将 $N(h,k)$（我很快会给出定义）的上界从关于 $k$ 的指数级改进为多项式级。其中，将上界从指数级改进为 $k^{\frac{1}{2}+\varepsilon}$ 的指数级，不过是对我工作的常规修改；而改进到关于 $k$ 的多项式级，则相当令人印象深刻。为此，ChatGPT 提出了一个原创且巧妙的想法——这种想法即便我苦思冥想一两周后能想到，我也会引以为豪，而 ChatGPT 在不到一小时内就找到并完成了证明，所用方法与我自己的证明相近。我的目标是解释这一想法，使其对我学计算机科学的朋友和学数学的朋友都能消化理解。 $N(h,k)$ 的界的问题与我在 Duluth REU（本科生科研体验）项目中研究的确定 $\mathcal{R}(h,k)$ 的问题密切相关。具体而言，$\mathcal{R}(h,k)$ 是 $h$ 重和集大小 $|hA|$ 的所有可能值的集合，其中 $A$ 可以是任意 $k$ 个整数构成的集合。$N(h,k)$ 是最小的 $N$，使得我们可以利用满足 $A \subset \{0,1,2,\ldots,N\}$ 的 $k$ 元集 $A$ 实现 $\mathcal{R}(h,k)$ 中的所有值。我去年夏天通过显式刻画，对充分大的 $k$ 给出了 $\mathcal{R}(h,k)$ 的完整描述，方法是构造 $A$ 使得 $|hA|$ 取到所有我无法排除为不可能的大小。因此，通过优化我的构造，可以给出 $N(h,k)$ 的上界。我构造这些集合 $A$ 的方法是将若干更易分析的小的分量集合组合在一起。其中一些分量是等比数列 $$S = \{0,1,m,m^2,\ldots,m^{\ell-2}\} \quad \text{以及} \quad T = \{1,m,m^2,\ldots,m^{\ell-1}\} \qquad (1)$$ 其中 $2 \leq m \leq h$，$2 \leq \ell \leq k$。不幸的是，$S$ 和 $T$ 的元素关于 $k$ 是指数级大的。因此，我（通过 Tim）问 ChatGPT：是否存在含 $\ell$ 个元素的集合，其和集大小与这些等比数列相近，但元素仅为 $\ell$ 的多项式量级？我完全不知道这是否可能，也不知道从何入手构造这样的集合。ChatGPT 给出了答案，构造了集合 $G$ 和 $H$，其行为类似于"被压缩进多项式区间的半个等比数列"——这是违反直觉的。在讨论 $G$ 和 $H$ 的构造之前，我先解释 $S$ 和 $T$ 的和集大小所具备的、$G$ 和 $H$ 需要重现的重要性质。对于 $h > 0$，若集合 $A$ 满足方程 $$x_1 + \cdots + x_h = y_1 + \cdots + y_h$$ （其中 $x_i, y_i \in A$）的唯一解是"平凡"解（即方程一侧是另一侧的重排），则称 $A$ 为 $B_h$ 集。若 $A$ 是大小为 $\ell$ 的 $B_h$ 集，则 $hA$ 的元素与从 $A$ 中有放回地选取 $h$ 个元素的方案一一对应。利用"星与条"方法，可以得到 $|hA| = \binom{h+\ell-1}{h}$，这也是大小为 $\ell$ 的集合的 $|hA|$ 所能达到的最大值。因此，另一种定义是：$A$ 是 $B_h$ 集当且仅当 $|hA| = \binom{h+|A|-1}{h}$。Tim 所说的 Sidon 集，正是 $B_2$ 集。为使讨论更具体，设 $(1)$ 中 $m=4$。则 $S$ 是 $B_3$ 集，但不是 $B_4$ 集，因为存在关系式 $$4^a + 4^a + 4^a + 4^a = 4^{a+1} + 0 + 0 + 0 \qquad (2)$$ 对 $\{0,1,2,\ldots,\ell-3\}$ 中任意 $a$ 均成立。特别地，$\binom{\ell+3}{4} - |4S| = \ell-2$，因为这 $\ell-2$ 个关系式是阻止 $S$ 成为 $B_4$ 集的全部原因。$T$ 不包含 $(2)$ 中的关系式，因为 $0 \notin T$。因此，$T$ 是 $B_4$ 集，但不是 $B_5$ 集，因为存在关系式 $$4^a + 4^a + 4^a + 4^a + 4^{b+1} = 4^{a+1} + 4^b + 4^b + 4^b + 4^b \qquad (3)$$ 对 $\{0,1,2,\ldots,\ell-2\}$ 中任意 $a \ne b$ 均成立。这给出了 $\binom{\ell-1}{2}$ 个关系式，可以验证 $\binom{\ell+4}{5} - |5T| = \binom{\ell-1}{2}$。综上，我们已经看到 $(a)$

我最近使用 ChatGPT 5.5 Pro 的一次体验

相似文章

@wtgowers: 我也开始尝试让 AI 解决数学中的开放性问题。更准确地说，我把 Melvyn Nathanson 提出的几个问题提交给了 ChatGPT 5.5 Pro……

菲尔兹奖得主数学家蒂莫西·高尔斯使用 GPT5.5 Pro 解决公开问题，认为按照当前进展速度，数学研究很快将面临‘危机’

GPT-5 与数学发现的未来

ChatGPT 的图像模型在数学方面优于大多数人

用GPT-5.2推进科学与数学

提交意见反馈