@OpenAI:与OpenAI的@markchen90对话中,陶哲轩思考了一个未来,人工智能减少研究的认知摩擦……

X AI KOLs 事件

摘要

陶哲轩与Mark Chen讨论了人工智能如何改变数学研究,从文献搜索到代码生成,以及调整工作流程的必要性。

在与OpenAI的@markchen90对话中,陶哲轩思考了一个未来,其中人工智能减少了研究的认知摩擦,帮助保留发现背后的路径,并拓展了数学家和科学家可以尝试的范围。 https://t.co/0elJITP8XT
查看原文
查看缓存全文

缓存时间: 2026/05/29 21:27

与OpenAI的@markchen90对话时,陶哲轩回顾了一个未来:人工智能减少研究中的认知摩擦,帮助保留发现背后的路径,并拓展数学家与科学家所能尝试的领域。 https://t.co/0elJITP8XT


活动回放:陶哲轩与马克·陈谈人工智能与数学发现 - 视频 | OpenAI论坛

来源:https://forum.openai.com/public/videos/event-replay-terence-tao-and-mark-chen-on-ai-and-mathematical-discovery-2026-03-11 [00:00:00] 詹姆斯:在开始之前,首先要衷心感谢学院今天接待我们。空间很棒。也感谢各位的到来。我知道你们想听我讲话,所以我不会说太久。最重要的,还要特别感谢你们两位的到来。能同时请到两位伟大的头脑实属难得。我们非常感激你们为此付出的时间。这是我们第三次举办这样的活动。是的,一个模式开始形成了。也许,这正是开始对话的好地方。你们两位几乎在一年前的同一天进行过一场对话。当时,特里,我记得你对GPT在数学方面的评估是,它像一个非常低效的研究生。这句话我一直记得,因为我自己作为人类也收到过类似的反馈。我不想深入探讨这个。

[00:01:00] 詹姆斯:不如我们从你们认为自那以后情况发生了哪些变化开始,然后马克,你从你的角度说说?

[00:01:08] 特里:好。是的。在过去的一年里,发生了很多变化。是的。不仅仅是……

[00:01:14] 特里:是的。对,这些工具确实变得强大得多。我认为现在有些能力已经基本正常化,我们几乎一直在使用它们。比如深度研究工具。文献搜索变得非常出色,已经超越了传统搜索。代码生成当然是个大问题。作为一个纯数学家,我不是代码的重度用户,但它已经改变了我处理数学问题的方式。我会画个图。如果我认为某个猜想成立,我会让AI尝试证明它。我现在已经在用这种方法了。如果有一个引理,我知道如何证明,但懒得做纸笔计算,我就会把它外包出去。不过,我还没发现它在最深层次的问题上有多大用处——当我用纸笔或与同事合作解决难题时。我还不能按照我所需要的深度与它进行对话式的交互,但也许未来可以。

[00:02:28] 特里:但我认为,在社会层面,整个数学界也开始认识到,这个资源会一直存在,我们必须开始调整我们的研究方式。某些以前非常繁琐、或者我们可能会迫使研究生去做的事情,现在可以交给AI处理。这开启了数学研究的新方式、大量的研究项目,特别是那些规模大到我们以前无法想象的项目。所以,虽然我们可以用AI来辅助现有的工作流程,但目前这样做还有些别扭。但我认为,在创建针对AI进行优化的新工作流程方面,将会出现更多里程碑。就像我们发明汽车后,开始改变城市布局一样。当然,可以说并非所有改变都是好的。但我们正处于这样一个中间阶段:道路仍然是为骑马的人修建的,而我们现在有了汽车。是否可以这样说,我们已经达到了一个点,AI偶尔很有帮助,可以协作。但也许更有趣的是,随着这些工具的出现,所有那些更广阔的开放空间——你如何改变你做数学的方式。

[00:03:43] 马克:马克,你看到的情况和你正在构建的东西是这样吗?

[00:03:46] 马克:是的,老实说,我不怪特里一年前说它像个低效的研究生。我认为那基本就是当时的状态。我确实将AI进步的背景视为一种爬山过程——我们称之为让模型自主工作时间越来越长。去年,我们处于分钟级别的范畴。你会发现,没错,模型会胡编乱造,当你给它大量工作时,它就会出问题。但我认为,过去一年对很多人来说是一个转变,因为我们看到错误减少了。因此,你可以信任模型进行更长时间的工作。这确实让我们摆脱了许多以前可能需要使用的脚手架,开始真正攻克更大的问题,并与模型进行真正的协奏。

[00:04:43] 马克:就在一年前,我们大致还处于在国际数学奥林匹克竞赛中获得铜牌的水平。我认为今年夏天,在所有高中级别的数学和编程竞赛中,我们已经达到了金牌水平……

[00:04:58] 詹姆斯:金牌水平。我认为我们基本已经用完了这些人类编写的基准测试。这就是为什么你会看到人们对此感到担忧,转向数学研究领域。从根本上说,这一直是我们的目标。我们在OpenAI并不以解决IMO问题之类的事情为傲。真正的雄心是推动科学的前沿。终于,任务的时间跨度已经赶上了我们真正能够去完成这些工作的程度。再说一遍,这还没有实现。但趋势和轨迹是强劲的。是的,我确实认为,如今很多人确实从中发现了实用性。我想在向更前沿数学过渡的过程中,也许会出现第一个证明。但也许还是先谈当前的能力。我认为,Erdős问题常被看作是测试模型水平的试金石。这是一个具有代表性的场景,因为其中一些问题可能不像其他部分那么复杂,而且它们是故意这样设计的。你可能会说,模型的成功在于快速解决大量较简单的问题,而不是必然地向那种橡果级别的难题迈进。特里,在你看来,这是对AI当前状态的公允描述吗?

[00:06:10] 特里:是的。我深度参与了追踪Erdős问题的进展。我意思是,是的,雷吉所说的基本属实。这些问题难度差异很大。有些问题我们非常渴望解决,而且已经研究了数十年。你知道,我有些论文在这些问题上取得了微小的进展。到目前为止,AI还没有真正帮助解决那些我们已经投入大量关注的问题。但还有一条很长的尾巴。Erdős提出了一千个问题,它们并非都是精品。但他明白,重要的是激发讨论和兴趣。他隐约知道,那些重要的问题必须有自己的生命力。但这存在一条长长的尾巴,是未经探索的问题,几乎没有任何后续文献。正是在这里,AI工具取得了非常显著的进展。大约有20到30个这样的问题,在极少量人工监督下,由AI工具解决。我们也能够验证它们,通常借助其他AI工具和形式化验证。我们摸索出了一种工作流程,可以做到这一点,而不会被AI的虚假正确解所淹没。所以,是的,这是一种我们以前没有的新能力,因为我们现在可以攻克注意力瓶颈问题了。

[00:08:07] 特里:因此,我认为这告诉我,我们需要开始为AI工具,也为公众创建越来越多广泛的问题挑战集。事实上,在同期,许多这类问题也被业余数学家解决了,有时用AI工具,有时不用。那些让AI成功的工作流程,实际上也让业余数学家能够成功。因此,我预见到我们文化的一个转变:我们不再只专注于少数极难的问题,不分享我们关心的其他更长的清单;作为数学家,我们都会开始发布我们想要得到答案的问题。比如一百个问题,也许AI能解决其中10%,另一个高中生能再解决5%,这样我们就能以一种更社区驱动的方式进行数学研究。我认为Erdős问题就是如此,它们是先行者。

[00:09:03] 詹姆斯:是的,也许将其置于其他科学领域的背景下会很有趣,至少在我自己的生物学领域,一篇论文的合作者数量随时间呈指数增长,这似乎是科学越来越像团队运动的趋势。数学,在某种程度上理论物理学也是,在这一领域是个异类。当你思考这个问题时,马克,它是否总是归结于:我们能让模型多聪明,它们能回答多难的问题?还是说,它也关乎如何赋权人类在这些问题上进行协作?

[00:09:32] 马克:是的,我的意思是,当前我们确实看到了社区的深入参与。这是推动所有这些科学领域进展的必要部分。凯文在这里,他负责我们的OpenAI for Science项目。其中一部分,就像你说的,这些实验首先在Erdős问题上证明了其价值。这实际上是与社区一起,确定哪些问题真正值得攻克。

[00:09:56] 詹姆斯:为了攻克,我们在物理领域也做过类似的练习。我们请来了一位专家物理学家,制定了一个项目,列出那些真正重要且看起来适合用AI处理的事情。这反过来也帮助我们塑造AI。它让我们能够发现缺陷,找到我们的模型在哪里失败,并真正加强这些地方。我们希望构建一个平台,全球的科学家可以在上面自我加速。我们希望赋能那个数学家社区。我们今天已经看到了这样的人被赋能。那些20岁、21岁的年轻人用模型解决了一些紧急问题。这可能不是那些非常复杂和重大的飞跃,但他们能够做很多自主导向的工作。

当你问那个问题时,我有个想法,我知道特里,你之前组织过很多大型社区数学项目。我不知道你认为AI如何改变这个世界,或者它是否以某种重要方式进入这个世界?

[00:10:57] 特里:我认为实际上它们结合得非常好。我认为AI最终将实现劳动分工,这是所有工业革命中每个行业都通过劳动分工变得更高效的方式,但数学除外。传统上做数学,有几种不同的任务:问题生成、策略生成、在生成的策略中进行策略选择、策略执行、策略验证以及结果沟通。我们基本上训练数学家在每个任务上都做得还不错。因此,我们在领域内专业化,但我们需要知道问题从何而来,什么是好问题,什么是好策略。我们有一些技术技能,需要验证,也需要解释。有些数学家在某些方面比其他人更擅长。我们因此受益于合作,但并不能像科学领域那样真正实现专业化——你可以有技术人员、项目经理等等。

但现在有了AI和其他现代协作工具,以及形式化验证,可以运行这样的数学项目:个体参与者只专攻其中一个领域。也许你的合作中有些差距;没有人知道如何进行技术性操作,但AI可以填补合作中的一些空白。你仍然需要人类,因为AI的表现非常不均衡。但也许现在这些输入中的一部分可以自动化。不过,如果你自动化得太多,例如,你可以自动化策略生成,但无法自动化验证,那么你只会得到成百上千条可能的策略,而AI无法处理。如果验证也能同步跟上,那么突然之间,你就拥有了一种极其高效的数学新风格。

[00:13:11] 詹姆斯:是的,关于这一点我也想快速补充一下。我绝对同意AI能力今天非常不均衡,所以你会看到与人类富有成效的协作。探索另一面也很有趣,即有些AI系统比你想的要更像人类。你需要用正确的方式投入大量强化学习,以避免出现模型像人类一样放弃的问题。如果你给一个太难的问题,模型常常会在自己的思维链中运行几个测试提示,然后想:“啊,这个问题太难了,我觉得我实际上做不了。让我对用户假装我真的努力过了。”Erdős问题也是如此;你让AI尝试一个Erdős问题,它做的第一件事就是去Erdős问题网站,查一下,然后说:“这是个开放问题,太难了,我不打算试。”

然后你说:“不要用互联网,你自己试一下这个Erdős问题。其实挺简单的,我保证。”知道前沿研究实际上就是哄着模型按照你想要的方式行事,这挺好的。对在座各位和更广的范围来说,这个愿景现在可能相当有吸引力:我们在说,技术从根本上赋权更多人协作解决这些问题。但特里,这是否只是通向一个世界的垫脚石——在那世界里,你只与众多AI智能体协作,而它们慢慢但确实地主导了这个领域?

[00:14:35] 特里:我认为是也不是。我认为我们今天做的这种数学可能会慢慢朝那个方向发展。但可能会出现全新的数学形式,我们现在甚至无法想象。我认为,数学是无限且困难的。

[00:14:54] 詹姆斯:而数学中的问题,难度级别是无界的。数学中甚至存在不可解的问题。我们知道它们不可解。嗯,有个星号,但我不想谈这个。好吧。所以,有些事情即使是最强大的AI,即使现在,也无法做到——比如某些密码学挑战,AI无法挖掘所有比特币等等。因此,我认为总会有一个前沿,而且我很欣赏——至少当前这代大型语言模型与人类技能是多么互补——最好的组合总是人类与AI的一种复杂组合。但组合的性质可能随时间变化。所以,让我们假设,即使在哲学层面,也存在一个前沿,至少当前范式的AI无法跨越,并且需要某种中等人机协作。

[00:15:56] 特里:在你的设想中,马克,要到达那个前沿,关

相似文章

Terence Tao on How AI Is Changing Mathematics

YouTube AI Channels

数学家陶哲轩认为AI正在降低数学研究中的认知摩擦,使实验和大胆想法成为可能,并有望成为主流工具;他还预测未来数学发表将分享探索路径而非仅最终结果。