使用 Gemini Deep Think 加速数学与科学发现

Google DeepMind Blog 2026/02/09 16:12 模型

摘要

DeepMind 宣布 Gemini Deep Think 具备解决数学、物理学和计算机科学领域专业研究问题的能力，其核心亮点在于全新智能体 "Aletheia"，能够迭代式地验证和修正解决方案。

研究论文指出 Deep Think 在各领域的影响力正日益增强

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:20

# 利用 Gemini Deep Think 加速数学与科学发现来源：https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/ 2026年2月11日研究您的浏览器不支持音频元素。**收听文章**10分钟在数学家和科学家的专业指导下，Gemini Deep Think 正在解决数学、物理学和计算机科学领域的专业研究问题 2025年夏季，Gemini Deep Think 的高级版本在国际数学奥林匹克竞赛（IMO）中达到了(https://goo.gle/imo-gold)金牌标准，随后，更新版本在国际大学生程序设计竞赛中也获得了(https://deepmind.google/blog/gemini-achieves-gold-medal-level-at-the-international-collegiate-programming-contest-world-finals/)类似成绩。这些结果表明，该模型能够推理解决一些面向学生的最具挑战性的数学和编程问题。此后，Gemini Deep Think 模式已进入科学、工程和企业工作流程，以应对更复杂、开放式的挑战。上周，我们的团队发表了两篇论文（[1](https://arxiv.org/abs/2602.10177)、[2](https://arxiv.org/abs/2602.03837)），详细介绍了利用 Gemini Deep Think 模式解决专业研究问题的跨学科努力。这些成果源于数学家、物理学家和计算机科学家之间的深度合作。 ## 纯数学的前沿与 IMO 题目不同，研究级数学需要运用海量文献中的高级技术。虽然基础模型拥有庞大的知识库，但数据稀缺往往导致其在高级主题上理解肤浅并产生幻觉。为解决这一问题，我们构建了一个数学研究智能体（内部代号为 Aletheia），由 Gemini Deep Think 模式驱动。它配备自然语言验证器，用于识别候选解决方案中的缺陷，并实现生成与修正解决方案的迭代过程。至关重要的是，该智能体能够承认无法解决问题，这一关键特性提高了研究人员的工作效率。此外，研究智能体利用 Google 搜索和网络浏览来导航复杂的研究文献，在综合已发表文献时防止虚假引用和计算错误。标题为"Aletheia：由 Gemini Deep Think 驱动"的流程图，展示了多步骤解决方案验证过程。中心线性路径从"问题"到"生成器"，再到"候选解决方案"，然后到"验证器"，最后到"最终输出"。验证器作为决策点，有三个反馈回路：正确：直接移动到"最终输出"。需要小幅修正：通过"修订器"返回更新"候选解决方案"。严重缺陷：触发红色虚线返回"生成器"重新开始流程。标题为"Aletheia：由 Gemini Deep Think 驱动"的流程图，展示了多步骤解决方案验证过程。中心线性路径从"问题"到"生成器"，再到"候选解决方案"，然后到"验证器"，最后到"最终输出"。验证器作为决策点，有三个反馈回路：正确：直接移动到"最终输出"。需要小幅修正：通过"修订器"返回更新"候选解决方案"。严重缺陷：触发红色虚线返回"生成器"重新开始流程。 Aletheia 概览，一个由 Deep Think 驱动的数学研究智能体，能够针对研究级数学问题迭代生成、验证和修正。自2025年7月达到 IMO 金牌标准以来，Gemini Deep Think 进步迅速，随着推理时计算量的增加，在 IMO-ProofBench Advanced 测试(https://imobench.github.io/)中的得分高达90%。我们证明，随着从奥林匹克级别提升到博士级别练习（根据我们内部的 FutureMath Basic 基准），缩放定律仍然成立。值得注意的是，Aletheia 证明可以在更低的推理时计算量下实现更高的推理质量。对于研究级数学，Aletheia 已经促成了多项进展，通过不同程度的自主研究产生： - 可靠的自主研究。一篇由 AI 生成、无需任何人工干预的研究论文（[Feng26](https://arxiv.org/abs/2601.23245)），计算了算术几何中称为特征权重的某些结构常数。 - AI 引导的协作。一篇展示人机协作证明相互作用粒子系统（称为独立集）界限的研究论文（[LeeSeo26](https://arxiv.org/abs/2602.02450)）。 - 对 Bloom 的 Erdős 猜想数据库(https://www.erdosproblems.com/)上700个开放问题的广泛半自主评估（[Feng et al., 2026b](https://arxiv.org/abs/2601.22401)），包括对该数据库中四个开放问题的自主解答。在 Erdős-1051 上，我们的模型自主求解并帮助促成了一项推广，报告于研究论文（[BKKKZ26](https://arxiv.org/abs/2601.21442)）中。该智能体还为另外两篇论文（[FYZ26](https://arxiv.org/abs/2601.18557)）和（[ACGKMP26](https://arxiv.org/abs/2601.23229)）贡献了中间命题。值得注意的是，此前已有(https://arxiv.org/abs/2601.07222)使用 Gemini 进行较小规模的研究级数学工作，涉及合作数量和问题数量。经过与数学社区的广泛讨论，我们提出了一种分类法，用于按重要性和 AI 贡献程度对 AI 辅助数学研究进行分类——为负责任的文档记录、评估和交流 AI 生成结果的更广泛讨论做出贡献。Level 2（"可发表质量"）的作品已提交至知名期刊。目前，我们不声称任何 Level 3（"重大进展"）和 Level 4（"里程碑式突破"）的结果。标题为"本工作涵盖的所有 AI 辅助数学结果分类"的表格，按新颖性和协作类型对研究进行分类。Level 0（自主）：Erdős-652、654、1040（Feng et al., 2026b）。Level 1（自主）：Erdős-1051（Feng et al., 2026b）。Level 2（人机+AI）：复杂度界限（ACGKMP26）和算术体积（FYZ26）。Level 2（协作）：独立多项式（LeeSeo26）和广义 Erdős-1051（BKKKZ26）。Level 2（自主）：特征权重（Feng26）。Level 3 和 4 目前为空。标题为"本工作涵盖的所有 AI 辅助数学结果分类"的表格，按新颖性和协作类型对研究进行分类。Level 0（自主）：Erdős-652、654、1040（Feng et al., 2026b）。Level 1（自主）：Erdős-1051（Feng et al., 2026b）。Level 2（人机+AI）：复杂度界限（ACGKMP26）和算术体积（FYZ26）。Level 2（协作）：独立多项式（LeeSeo26）和广义 Erdős-1051（BKKKZ26）。Level 2（自主）：特征权重（Feng26）。Level 3 和 4 目前为空。本工作涵盖的所有 AI 辅助数学结果分类。*表中列为 Level 2 的作品已提交发表。提示和模型输出可在[此处](https://github.com/google-deepmind/superhuman/tree/main/aletheia)获取。关于 AI 贡献的讨论、我们的"人机交互卡片"以及社区影响，请参阅我们的[论文](https://arxiv.org/abs/2602.10177)。 ## 扩展至物理学和计算机科学 Gemini Deep Think 模式在计算机科学和物理学领域也展现出前景。[第二篇论文](http://arxiv.org/abs/2602.03837)基于类似的智能体推理理念，并识别出有效的协作"配方"，特别是"顾问"模式，人类通过迭代的"直觉验证"循环来引导 AI，以验证直觉并完善证明。我们还详细介绍了"平衡提示"等战术技巧——同时请求证明*或*反驳以防止确认偏误——以及代码辅助验证。这些方法与模型通过深层结构联系桥接不同科学领域的能力相结合，正在改变理论研究的方式。这项工作建立在我们成功部署 Gemini Deep Think 高级版本协助审阅 STOC'26 会议(https://research.google/blog/gemini-provides-automated-feedback-for-theoretical-computer-scientists-at-stoc-2026/) CS 理论论文的基础上。标题为"网络层"的流程图，展示了深度推理的过程。顶部，标有"广泛探索解决方案空间"的括号汇入一个筛选图标。这进入中心的"深度推理"部分，由一系列相互连接的节点和波浪图案表示。过程以指向"输出"的人形图标结束。底部最终标签将该过程描述为"自动化+人工验证的长尾"。标题为"网络层"的流程图，展示了深度推理的过程。顶部，标有"广泛探索解决方案空间"的括号汇入一个筛选图标。这进入中心的"深度推理"部分，由一系列相互连接的节点和波浪图案表示。过程以指向"输出"的人形图标结束。底部最终标签将该过程描述为"自动化+人工验证的长尾"。 AI 推理流程示意图，展示了网络层广泛的解决方案空间探索如何被引导至结构化推理，并由自动化和人工验证进行验证。与专家合作解决18个研究问题，Gemini Deep Think 的高级版本帮助突破了算法、机器学习和组合优化、信息理论以及经济学中长期存在的瓶颈。来自我们[《利用 Gemini 加速研究》论文](http://arxiv.org/abs/2602.03837)的亮点包括（论文中的对应章节号）： 1. **跨越数学边界解决网络难题**：经典计算机科学问题如"Max-Cut"（高效分割网络）和"Steiner Tree"（连接高维点）的进展已经放缓。Gemini 通过跳出框框思考打破了两个僵局。它通过从连续数学的完全不相关分支中引入高级工具——如 Kirszbraun 定理、测度论和 Stone-Weierstrass 定理——来解决这些离散算法难题。参见[第4.1和4.2节](https://arxiv.org/pdf/2602.03837)。 2. **解决在线子模优化中十年未决的猜想**：一篇[2015年理论论文](https://research.google/pubs/online-submodular-welfare-maximization-greedy-beats-12-in-random-order/)提出了数据流中看似显而易见的规则：复制到达项总是不如直接移动原始项有价值。专家们花了十年时间试图证明这一点。Gemini 设计了一个高度特定的三项组合反例，严格证明了长期存在的人类直觉是错误的。参见[第3.1节](https://arxiv.org/pdf/2602.03837)。 3. **机器学习优化**：训练 AI 过滤噪声通常需要工程师手动调整数学"惩罚"。研究人员创建了一种自动完成此操作的新技术，但无法从数学上解释原因。Gemini 分析了方程并证明该方法成功的原因在于它秘密地即时生成自己的"自适应惩罚"。参见[第8.3节](https://arxiv.org/pdf/2602.03837)。 4. **为 AI 升级经济理论**：一项关于拍卖 AI 生成令牌的最新"显示原理"仅在出价限制为有理数时才能在数学上成立。将定义域扩展到连续实数使原始证明失效。Gemini 运用高级拓扑学和序理论扩展了该定理，适应现实世界连续的拍卖动态。参见[第8.4节](https://arxiv.org/pdf/2602.03837)。 5. **宇宙弦物理学**：计算宇宙弦的引力辐射需要找到包含"奇点"的棘手积分的解析解。Gemini 使用 Gegenbauer 多项式找到了一种新颖的解决方案。这自然地吸收了奇点，将无限级数坍缩为闭式有限和。参见[第6.1节](https://arxiv.org/pdf/2602.03837)。跨越从信息和复杂度理论到密码学和机制设计等多样领域，这些结果展示了 AI 如何从根本上改变研究。详情请参见[我们的论文](https://arxiv.org/pdf/2602.03837)。鉴于计算机科学灵活、会议驱动的发表流程，我们按学术轨迹而非严格的分类法来描述这些结果。约一半目标为顶级会议——包括一篇 ICLR '26 录用——而大多数其余发现将形成未来的期刊投稿。即使通过识别错误（[第3.2节](https://arxiv.org/pdf/2602.03837)）或反驳猜想（[第3.1节](https://arxiv.org/pdf/2602.03837)）来纠正领域方向，这些成果也凸显了 AI 作为高级科学合作者的价值。 ## 人机协作的未来基于 Google 此前的突破性成果（[1](https://deepmind.google/blog/exploring-the-beauty-of-pure-mathematics-in-novel-ways/)、[2](https://deepmind.google/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/)、[3](https://deepmind.google/blog/ai-solves-imo-problems-at-silver-medal-level/)、[4](https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/)、[5](https://research.google/blog/gemini-provides-automated-feedback-for-theoretical-computer-scientists-at-stoc-2026/)），这项工作表明，通用基础模型——结合智能体推理工作流程——可以成为强大的科学伙伴。在数学家、物理学家和计算机科学家的专业指导下，Gemini Deep Think 模式正在证明其在复杂数学、逻辑和推理为核心的领域中的实用性。我们正在见证科学工作流程的根本性转变。随着 Gemini 的发展，它充当人类智力的"乘数"，处理知识检索和严格验证，使科学家能够专注于概念深度和创意方向。无论是完善证明、寻找反例，还是连接不相关的领域，AI 正在成为科学进步下一章的宝贵合作者。 ## 致谢我们感谢数学家、物理学家和计算机科学家专家社区对本项目的帮助和建议本项目是 Google 内部的大规模协作，其成功归功于许多个人和团队的共同努力。Thang Luong 和 Vahab Mirrokni 在 Tony Feng 和 David Woodruff 的深厚技术专长支持下领导了整体研究方向。第一篇论文"迈向自主数学研究"的作者包括：Tony Feng、Trieu H. Trinh、Garrett Bingham、Dawsen Hwang、Yuri Chervonyi、Junehyuk Jung、Joonkyung Lee、Carlo Pagano、Sang-hyun Kim、Federico Pasqualotto、Sergei Gukov、Jonathan N. Lee、Junsu Kim、Kaiying Hou、Golnaz Ghiasi、Yi Tay、YaGuang Li、Chenkai Kuang、Yuan Liu、Hanzhao (Maggie) Lin、Evan Zheran Liu、Nigamaa Nayakanti、Xiaomeng Yang、Heng-Tze Cheng、Demis Hassabis、Koray Kavukcuoglu、Quoc V. Le、Thang Luong。我们感谢以下专家对本工作的反馈和讨论：Jarod Alper、Kevin Barreto、Thomas Bloom、Sourav Chatterjee、Otis Chodosh、Michael Hutchings、Seongbin Jeon、Youngbeom Jin、Aiden Yuchan Jung、Jiwon Kang、Jimin Kim、Vjekoslav Kovač、Daniel Litt、Ciprian Manolescu、Mona Merling、Agustin Moreno、Carl Schildkraut、Johannes Schmitt、Insuk Seo、Jaehyeon Seo、Terence Tao、Cheng-Chiang Tsai、Ravi Vakil、Zhiwei Yun、Shengtong Zhang、Wei

使用 Gemini Deep Think 加速数学与科学发现

相似文章

Gemini 3 Deep Think：推动科学、研究与工程进步

借助 AI for Math Initiative 加速发现

在 Gemini 应用中尝试 Deep Think

AlphaEvolve：一个由Gemini驱动的编码智能体，用于设计先进算法

Gemini 高级版本配合 Deep Think 在国际数学奥林匹克竞赛中正式达到金牌标准

提交意见反馈