使用 Gemini Deep Think 加速数学与科学发现
摘要
DeepMind 宣布 Gemini Deep Think 具备解决数学、物理学和计算机科学领域专业研究问题的能力,其核心亮点在于全新智能体 "Aletheia",能够迭代式地验证和修正解决方案。
研究论文指出 Deep Think 在各领域的影响力正日益增强
查看缓存全文
缓存时间: 2026/05/08 09:20
# 利用 Gemini Deep Think 加速数学与科学发现
来源:https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/
2026年2月11日研究
您的浏览器不支持音频元素。**收听文章**10分钟
在数学家和科学家的专业指导下,Gemini Deep Think 正在解决数学、物理学和计算机科学领域的专业研究问题
2025年夏季,Gemini Deep Think 的高级版本在国际数学奥林匹克竞赛(IMO)中达到了(https://goo.gle/imo-gold)金牌标准,随后,更新版本在国际大学生程序设计竞赛中也获得了(https://deepmind.google/blog/gemini-achieves-gold-medal-level-at-the-international-collegiate-programming-contest-world-finals/)类似成绩。这些结果表明,该模型能够推理解决一些面向学生的最具挑战性的数学和编程问题。此后,Gemini Deep Think 模式已进入科学、工程和企业工作流程,以应对更复杂、开放式的挑战。
上周,我们的团队发表了两篇论文([1](https://arxiv.org/abs/2602.10177)、[2](https://arxiv.org/abs/2602.03837)),详细介绍了利用 Gemini Deep Think 模式解决专业研究问题的跨学科努力。这些成果源于数学家、物理学家和计算机科学家之间的深度合作。
## 纯数学的前沿
与 IMO 题目不同,研究级数学需要运用海量文献中的高级技术。虽然基础模型拥有庞大的知识库,但数据稀缺往往导致其在高级主题上理解肤浅并产生幻觉。
为解决这一问题,我们构建了一个数学研究智能体(内部代号为 Aletheia),由 Gemini Deep Think 模式驱动。它配备自然语言验证器,用于识别候选解决方案中的缺陷,并实现生成与修正解决方案的迭代过程。至关重要的是,该智能体能够承认无法解决问题,这一关键特性提高了研究人员的工作效率。
此外,研究智能体利用 Google 搜索和网络浏览来导航复杂的研究文献,在综合已发表文献时防止虚假引用和计算错误。
标题为"Aletheia:由 Gemini Deep Think 驱动"的流程图,展示了多步骤解决方案验证过程。中心线性路径从"问题"到"生成器",再到"候选解决方案",然后到"验证器",最后到"最终输出"。验证器作为决策点,有三个反馈回路:正确:直接移动到"最终输出"。需要小幅修正:通过"修订器"返回更新"候选解决方案"。严重缺陷:触发红色虚线返回"生成器"重新开始流程。标题为"Aletheia:由 Gemini Deep Think 驱动"的流程图,展示了多步骤解决方案验证过程。中心线性路径从"问题"到"生成器",再到"候选解决方案",然后到"验证器",最后到"最终输出"。验证器作为决策点,有三个反馈回路:正确:直接移动到"最终输出"。需要小幅修正:通过"修订器"返回更新"候选解决方案"。严重缺陷:触发红色虚线返回"生成器"重新开始流程。
Aletheia 概览,一个由 Deep Think 驱动的数学研究智能体,能够针对研究级数学问题迭代生成、验证和修正。
自2025年7月达到 IMO 金牌标准以来,Gemini Deep Think 进步迅速,随着推理时计算量的增加,在 IMO-ProofBench Advanced 测试(https://imobench.github.io/)中的得分高达90%。我们证明,随着从奥林匹克级别提升到博士级别练习(根据我们内部的 FutureMath Basic 基准),缩放定律仍然成立。值得注意的是,Aletheia 证明可以在更低的推理时计算量下实现更高的推理质量。
对于研究级数学,Aletheia 已经促成了多项进展,通过不同程度的自主研究产生:
- 可靠的自主研究。一篇由 AI 生成、无需任何人工干预的研究论文([Feng26](https://arxiv.org/abs/2601.23245)),计算了算术几何中称为特征权重的某些结构常数。
- AI 引导的协作。一篇展示人机协作证明相互作用粒子系统(称为独立集)界限的研究论文([LeeSeo26](https://arxiv.org/abs/2602.02450))。
- 对 Bloom 的 Erdős 猜想数据库(https://www.erdosproblems.com/)上700个开放问题的广泛半自主评估([Feng et al., 2026b](https://arxiv.org/abs/2601.22401)),包括对该数据库中四个开放问题的自主解答。在 Erdős-1051 上,我们的模型自主求解并帮助促成了一项推广,报告于研究论文([BKKKZ26](https://arxiv.org/abs/2601.21442))中。
该智能体还为另外两篇论文([FYZ26](https://arxiv.org/abs/2601.18557))和([ACGKMP26](https://arxiv.org/abs/2601.23229))贡献了中间命题。值得注意的是,此前已有(https://arxiv.org/abs/2601.07222)使用 Gemini 进行较小规模的研究级数学工作,涉及合作数量和问题数量。
经过与数学社区的广泛讨论,我们提出了一种分类法,用于按重要性和 AI 贡献程度对 AI 辅助数学研究进行分类——为负责任的文档记录、评估和交流 AI 生成结果的更广泛讨论做出贡献。Level 2("可发表质量")的作品已提交至知名期刊。目前,我们不声称任何 Level 3("重大进展")和 Level 4("里程碑式突破")的结果。
标题为"本工作涵盖的所有 AI 辅助数学结果分类"的表格,按新颖性和协作类型对研究进行分类。Level 0(自主):Erdős-652、654、1040(Feng et al., 2026b)。Level 1(自主):Erdős-1051(Feng et al., 2026b)。Level 2(人机+AI):复杂度界限(ACGKMP26)和算术体积(FYZ26)。Level 2(协作):独立多项式(LeeSeo26)和广义 Erdős-1051(BKKKZ26)。Level 2(自主):特征权重(Feng26)。Level 3 和 4 目前为空。标题为"本工作涵盖的所有 AI 辅助数学结果分类"的表格,按新颖性和协作类型对研究进行分类。Level 0(自主):Erdős-652、654、1040(Feng et al., 2026b)。Level 1(自主):Erdős-1051(Feng et al., 2026b)。Level 2(人机+AI):复杂度界限(ACGKMP26)和算术体积(FYZ26)。Level 2(协作):独立多项式(LeeSeo26)和广义 Erdős-1051(BKKKZ26)。Level 2(自主):特征权重(Feng26)。Level 3 和 4 目前为空。
本工作涵盖的所有 AI 辅助数学结果分类。*表中列为 Level 2 的作品已提交发表。
提示和模型输出可在[此处](https://github.com/google-deepmind/superhuman/tree/main/aletheia)获取。关于 AI 贡献的讨论、我们的"人机交互卡片"以及社区影响,请参阅我们的[论文](https://arxiv.org/abs/2602.10177)。
## 扩展至物理学和计算机科学
Gemini Deep Think 模式在计算机科学和物理学领域也展现出前景。[第二篇论文](http://arxiv.org/abs/2602.03837)基于类似的智能体推理理念,并识别出有效的协作"配方",特别是"顾问"模式,人类通过迭代的"直觉验证"循环来引导 AI,以验证直觉并完善证明。我们还详细介绍了"平衡提示"等战术技巧——同时请求证明*或*反驳以防止确认偏误——以及代码辅助验证。这些方法与模型通过深层结构联系桥接不同科学领域的能力相结合,正在改变理论研究的方式。这项工作建立在我们成功部署 Gemini Deep Think 高级版本协助审阅 STOC'26 会议(https://research.google/blog/gemini-provides-automated-feedback-for-theoretical-computer-scientists-at-stoc-2026/) CS 理论论文的基础上。
标题为"网络层"的流程图,展示了深度推理的过程。顶部,标有"广泛探索解决方案空间"的括号汇入一个筛选图标。这进入中心的"深度推理"部分,由一系列相互连接的节点和波浪图案表示。过程以指向"输出"的人形图标结束。底部最终标签将该过程描述为"自动化+人工验证的长尾"。标题为"网络层"的流程图,展示了深度推理的过程。顶部,标有"广泛探索解决方案空间"的括号汇入一个筛选图标。这进入中心的"深度推理"部分,由一系列相互连接的节点和波浪图案表示。过程以指向"输出"的人形图标结束。底部最终标签将该过程描述为"自动化+人工验证的长尾"。
AI 推理流程示意图,展示了网络层广泛的解决方案空间探索如何被引导至结构化推理,并由自动化和人工验证进行验证。
与专家合作解决18个研究问题,Gemini Deep Think 的高级版本帮助突破了算法、机器学习和组合优化、信息理论以及经济学中长期存在的瓶颈。来自我们[《利用 Gemini 加速研究》论文](http://arxiv.org/abs/2602.03837)的亮点包括(论文中的对应章节号):
1. **跨越数学边界解决网络难题**:经典计算机科学问题如"Max-Cut"(高效分割网络)和"Steiner Tree"(连接高维点)的进展已经放缓。Gemini 通过跳出框框思考打破了两个僵局。它通过从连续数学的完全不相关分支中引入高级工具——如 Kirszbraun 定理、测度论和 Stone-Weierstrass 定理——来解决这些离散算法难题。参见[第4.1和4.2节](https://arxiv.org/pdf/2602.03837)。
2. **解决在线子模优化中十年未决的猜想**:一篇[2015年理论论文](https://research.google/pubs/online-submodular-welfare-maximization-greedy-beats-12-in-random-order/)提出了数据流中看似显而易见的规则:复制到达项总是不如直接移动原始项有价值。专家们花了十年时间试图证明这一点。Gemini 设计了一个高度特定的三项组合反例,严格证明了长期存在的人类直觉是错误的。参见[第3.1节](https://arxiv.org/pdf/2602.03837)。
3. **机器学习优化**:训练 AI 过滤噪声通常需要工程师手动调整数学"惩罚"。研究人员创建了一种自动完成此操作的新技术,但无法从数学上解释原因。Gemini 分析了方程并证明该方法成功的原因在于它秘密地即时生成自己的"自适应惩罚"。参见[第8.3节](https://arxiv.org/pdf/2602.03837)。
4. **为 AI 升级经济理论**:一项关于拍卖 AI 生成令牌的最新"显示原理"仅在出价限制为有理数时才能在数学上成立。将定义域扩展到连续实数使原始证明失效。Gemini 运用高级拓扑学和序理论扩展了该定理,适应现实世界连续的拍卖动态。参见[第8.4节](https://arxiv.org/pdf/2602.03837)。
5. **宇宙弦物理学**:计算宇宙弦的引力辐射需要找到包含"奇点"的棘手积分的解析解。Gemini 使用 Gegenbauer 多项式找到了一种新颖的解决方案。这自然地吸收了奇点,将无限级数坍缩为闭式有限和。参见[第6.1节](https://arxiv.org/pdf/2602.03837)。
跨越从信息和复杂度理论到密码学和机制设计等多样领域,这些结果展示了 AI 如何从根本上改变研究。详情请参见[我们的论文](https://arxiv.org/pdf/2602.03837)。
鉴于计算机科学灵活、会议驱动的发表流程,我们按学术轨迹而非严格的分类法来描述这些结果。约一半目标为顶级会议——包括一篇 ICLR '26 录用——而大多数其余发现将形成未来的期刊投稿。即使通过识别错误([第3.2节](https://arxiv.org/pdf/2602.03837))或反驳猜想([第3.1节](https://arxiv.org/pdf/2602.03837))来纠正领域方向,这些成果也凸显了 AI 作为高级科学合作者的价值。
## 人机协作的未来
基于 Google 此前的突破性成果([1](https://deepmind.google/blog/exploring-the-beauty-of-pure-mathematics-in-novel-ways/)、[2](https://deepmind.google/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/)、[3](https://deepmind.google/blog/ai-solves-imo-problems-at-silver-medal-level/)、[4](https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/)、[5](https://research.google/blog/gemini-provides-automated-feedback-for-theoretical-computer-scientists-at-stoc-2026/)),这项工作表明,通用基础模型——结合智能体推理工作流程——可以成为强大的科学伙伴。
在数学家、物理学家和计算机科学家的专业指导下,Gemini Deep Think 模式正在证明其在复杂数学、逻辑和推理为核心的领域中的实用性。
我们正在见证科学工作流程的根本性转变。随着 Gemini 的发展,它充当人类智力的"乘数",处理知识检索和严格验证,使科学家能够专注于概念深度和创意方向。无论是完善证明、寻找反例,还是连接不相关的领域,AI 正在成为科学进步下一章的宝贵合作者。
## 致谢
我们感谢数学家、物理学家和计算机科学家专家社区对本项目的帮助和建议
本项目是 Google 内部的大规模协作,其成功归功于许多个人和团队的共同努力。Thang Luong 和 Vahab Mirrokni 在 Tony Feng 和 David Woodruff 的深厚技术专长支持下领导了整体研究方向。
第一篇论文"迈向自主数学研究"的作者包括:Tony Feng、Trieu H. Trinh、Garrett Bingham、Dawsen Hwang、Yuri Chervonyi、Junehyuk Jung、Joonkyung Lee、Carlo Pagano、Sang-hyun Kim、Federico Pasqualotto、Sergei Gukov、Jonathan N. Lee、Junsu Kim、Kaiying Hou、Golnaz Ghiasi、Yi Tay、YaGuang Li、Chenkai Kuang、Yuan Liu、Hanzhao (Maggie) Lin、Evan Zheran Liu、Nigamaa Nayakanti、Xiaomeng Yang、Heng-Tze Cheng、Demis Hassabis、Koray Kavukcuoglu、Quoc V. Le、Thang Luong。我们感谢以下专家对本工作的反馈和讨论:Jarod Alper、Kevin Barreto、Thomas Bloom、Sourav Chatterjee、Otis Chodosh、Michael Hutchings、Seongbin Jeon、Youngbeom Jin、Aiden Yuchan Jung、Jiwon Kang、Jimin Kim、Vjekoslav Kovač、Daniel Litt、Ciprian Manolescu、Mona Merling、Agustin Moreno、Carl Schildkraut、Johannes Schmitt、Insuk Seo、Jaehyeon Seo、Terence Tao、Cheng-Chiang Tsai、Ravi Vakil、Zhiwei Yun、Shengtong Zhang、Wei
相似文章
Gemini 3 Deep Think:推动科学、研究与工程进步
Google 发布了 Gemini 3 Deep Think 的重大更新,这是一种专门的推理模式,旨在通过将深厚的科学知识与实际应用相结合,解决科学、研究和工程领域的复杂挑战。
借助 AI for Math Initiative 加速发现
Google DeepMind 和 Google 发起了 AI for Math Initiative,与五所著名研究机构合作,利用 Gemini Deep Think 和 AlphaProof 等 AI 工具加速数学发现。
在 Gemini 应用中尝试 Deep Think
Google 正在为 Gemini 应用中的 Google AI Ultra 订阅者推出 Deep Think,这是一项新的推理能力,采用并行思维技术,在 2025 IMO 基准测试中达到铜牌级性能。完整的金牌级版本正与精选数学家分享用于研究目的。
AlphaEvolve:一个由Gemini驱动的编码智能体,用于设计先进算法
DeepMind发布AlphaEvolve,这是一个由Gemini驱动的AI智能体,它将大型语言模型与自动评估器相结合,能够发现并优化用于数学和实际计算问题的算法,提高数据中心、芯片设计和AI训练的效率。
Gemini 高级版本配合 Deep Think 在国际数学奥林匹克竞赛中正式达到金牌标准
Google DeepMind 的高级 Gemini 配合 Deep Think 在 2025 年国际数学奥林匹克竞赛中达到金牌标准,在竞赛时间限制内以自然语言端到端操作,解答了 6 道题目中的 5 道,获得 35 分——相比去年的银牌成绩取得了重大进步。