Gemini 高级版本配合 Deep Think 在国际数学奥林匹克竞赛中正式达到金牌标准

Google DeepMind Blog 模型

摘要

Google DeepMind 的高级 Gemini 配合 Deep Think 在 2025 年国际数学奥林匹克竞赛中达到金牌标准,在竞赛时间限制内以自然语言端到端操作,解答了 6 道题目中的 5 道,获得 35 分——相比去年的银牌成绩取得了重大进步。

国际数学奥林匹克竞赛(IMO)是世界上最负盛名的青年数学家竞赛,自 1959 年以来每年举办一次。参赛的每个国家都派出六名精英预科数学家参加竞赛,他们需要解决六道极其困难的代数、组合数学、几何和数论问题。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:35

# Gemini 搭载 Deep Think 的高级版本在国际数学奥林匹克竞赛中正式达到金牌水平 来源:https://deepmind.google/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/ 国际数学奥林匹克竞赛("IMO")是全球最负盛名的青少年数学竞赛,自 1959 年以来每年举办一次。参赛的每个国家都派出六名精英数学竞赛者(未进入大学的学生)来解决六个在代数、组合论、几何和数论领域内极其困难的问题。奖牌颁发给排名前一半的选手,其中约 8% 获得享有盛誉的金牌。 最近,IMO 也成为了检验 AI 系统高级数学问题求解和推理能力的一项挑战。去年,Google DeepMind 的 AlphaProof 和 AlphaGeometry 2 联合系统取得了银牌水平的成绩(https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=),解决了六个问题中的四个,得分为 28 分。这项突破利用了专业形式语言,证明了 AI 正在接近精英级的人类数学推理。 今年,我们成为首批由 IMO 协调员使用与学生解答相同的标准进行官方评分和认证的模型。在承认今年学生参赛者取得重大成就的同时,我们现在很高兴分享 Gemini 突破性表现的好消息。 ## Gemini Deep Think 在 IMO 2025 上的突破性表现 Gemini Deep Think 的高级版本(https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=#deep-think)完美地解决了 IMO 六个问题中的五个,总得分 35 分,达到了金牌水平的表现。解答可以在线查看(https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)。 > 我们可以确认 Google DeepMind 达到了期待已久的里程碑,获得了可能的 42 分中的 35 分——一个金牌分数。他们的解答在许多方面都令人惊叹。IMO 评分员认为这些解答清晰、精确,大部分易于理解。 IMO 主席 Gregor Dolinar 教授博士 这项成就是对去年突破性结果的重大进步。在 2024 年 IMO 上,AlphaGeometry 和 AlphaProof 需要专家首先将问题从自然语言翻译成特定领域的语言(如 Lean),反之亦然用于证明。计算也需要两到三天的时间。今年,我们的高级 Gemini 模型在自然语言中端到端地运作,直接从官方问题描述生成严格的数学证明,一切都在 4.5 小时的竞赛时间限制内完成。 ## 充分利用 Deep Think 模式 我们使用 Gemini Deep Think 的高级版本实现了今年的结果——一个用于复杂问题的增强推理模式,融合了我们最新的研究技术,包括并行思维。这种设置使模型能够同时探索和组合多个可能的解决方案,然后给出最终答案,而不是遵循单一的线性思维链。 为了充分利用 Deep Think 的推理能力,我们用新的强化学习技术对这个 Gemini 版本进行了额外训练,这些技术可以利用更多的多步推理、问题求解和定理证明数据。我们还为 Gemini 提供了对高质量数学问题解答的精选语料库的访问权限,并在其指令中添加了一些关于如何解决 IMO 问题的通用提示和技巧。 我们将向包括数学家在内的一组受信任的测试者提供此 Deep Think 模型的版本,然后再向 Google AI Ultra 订阅者推出。 ## AI 与数学的未来 Google DeepMind 与数学界有持续的合作,但我们仍然只是处于 AI 对数学贡献潜力的初始阶段(https://www.youtube.com/watch?v=TgS0nFeYul8&utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)。通过教导我们的系统以更灵活和直观的方式进行推理,我们正在接近构建能够解决更复杂和高级数学问题的 AI。 虽然我们今年的方法基于纯自然语言和 Gemini,但我们也继续在形式系统 AlphaGeometry 和 AlphaProof 上取得进展。我们相信将自然语言流畅性与严格推理(包括形式语言中的验证推理)相结合的智能体将成为数学家、科学家、工程师和研究人员的宝贵工具,帮助我们在通往 AGI 的道路上推进人类知识。 **致谢** 感谢国际数学奥林匹克组织的支持。 这个项目是一次大规模的协作,其成功归功于许多个人和团队的共同努力。Thang Luong 领导了 IMO 2025 工作的总体技术方向,并与 Edward Lockhart 共同领导了总体协调。 IMO 2025 团队的领导和主要贡献者如下:Dawsen Hwang、Junehyuk Jung、Jonathan Lee、Nate Kushman、Pol Moreno、Yi Tay、Lei Yu、Golnaz Ghiasi、Garrett Bingham、Lalit Jain、Vincent Cohen-Addad 和 Theophane Weber、Ankesh Anand、Steven Zheng、Vinh Tran、Vinay Ramasesh、Andreas Kirsch、Jieming Mao、Zicheng Xu、Wilfried Bounsi、Vahab Mirrokni、Hoang Nguyen、Fred Zhang、Mahan Malihi、Yangsibo Huang、Yuri Chervonyi、Trieu Trinh、Junsu Kim、Mirek Olšák、Marcelo Menegali、Xiaomeng Yang、Richard Song、Miklós Z. Horváth、Aja Huang、Goran Žužić。 IMO 的高级 Gemini 模型搭载 Deep Think 建立在 Deep Think 团队的基础研究之上,由 GDM Thinking 领域赞助,以及相应的后训练工作,包括:Archit Sharma、Shubha Raghvendra、Tong He、Pei Sun、Tianhe(Kevin)Yu、Eric Ni、Siamak Shakeri、Hanzhao(Maggie)Lin、Cosmo Du、Sid Lall、Le Hou、Yuan Zhang、Yujing Zhang、Yong Cheng、Luheng He 和 Chenxi Liu。 这项工作由 Quoc Le 和 Pushmeet Kohli 指导,由 Kristen Chiafullo 和 Alex Goldin 负责项目管理。 我们还要感谢提供数据和评估的专家:Insuk Seo(领导)、Jiwon Kang、Donghyun Kim、Junsu Kim、Jimin Kim、Seongbin Jeon、Yoonho Na、Seunghwan Lee、Jihoo Lee、Younghun Jo、Yongsuk Hur、Seongjae Park、Kyuhyeon Choi、Minkyu Choi、Su-Hyeok Moon、Seojin Kim、Yueun Lee、Taehun Kim、Jeeho Ryu、Seungwoo Lee、Dain Kim、Sanha Lee、Hyunwoo Choi、Aiden Jung、Youngbeom Jin、Jeonghyun Ahn、Junhwi Bae、Gyumin Kim、Nam Dung Tran、Quoc Ba Can Vo、Van Huyen Nguyen、Tuan Anh Nguyen、Thanh Dat Vo、Nguyen Nam Hung Tran、Van Khai Luong、Son Vu、Son Tra Dao、Dai Dinh Phong Tran、Thanh Dat Le、Cheng-Chiang Tsai、Kari Ragnarsson、Kiat Chuan Tan、Yahya Tabesh、Hamed Mahdavi、Azin Nazari、Chu-Lan Kao、Steven Creech、Tony Feng、Daogao Liu 和 Ciprian Manolescu。 进一步感谢以下人员的支持、协作和建议:Omer Levy、Timothy Lillicrap、Jack Rae、Yifeng Lu、Heng-tze Cheng、Denny Zhou、Ed Chi、Vahab Mirrokni、Tulsee Doshi、Madhavi Sewak、Melvin Johnson、Fernando Pereira、Benoit Schillings、Koray Kavukcuoglu、Oriol Vinyals、Jeff Dean、Demis Hassabis、Sergey Brin、Jessica Lo、Sajjad Zafar、Tom Simpson、Jane Labanowski、Andy Forbes、Sean Nakamoto、Jonathan Lai、Fabian Pedregosa、Samuel Albanie、Alex Zhai、Sara Javanmardi、Divy Thakkar、YaGuang Li、Nigamaa Nayakanti、Chenjie Gu、Chenkai Kuang、Swaroop Mishra、Filipe Miguel de Almeida、Silvio Lattanzi、Ashkan Norouzi Fard、Tal Schuster、Ziwei Ji、Honglu Fan、Xuezhi Wang、Aditi Mavalankar、Tom Schaul、Rosemary Ke、Xiangzhuo Ding、Adam Brown、Emanuel Taropa、Charlie Chen、Joe Stanton、Cip Baetu、Alvin Abdagic、Federico Lebron、Ioana Mihailescu、Soheil Hassas Yeganeh、Ashish Shenoy 和 Minh Giang。 最后,感谢 IMO 委员会的 Gregor Dolinar 教授的支持和认可。 IMO 已确认我们提交的答案是完整且正确的解决方案。需要注意的是,他们的审查不涉及验证我们的系统、流程或底层模型(见更多信息(https://imo2025.au/wp-content/uploads/2025/07/IMO-2025_ClosingDayStatement-19072025.pdf))。

相似文章

在 Gemini 应用中尝试 Deep Think

Google DeepMind Blog

Google 正在为 Gemini 应用中的 Google AI Ultra 订阅者推出 Deep Think,这是一项新的推理能力,采用并行思维技术,在 2025 IMO 基准测试中达到铜牌级性能。完整的金牌级版本正与精选数学家分享用于研究目的。

使用 Gemini Deep Think 加速数学与科学发现

Google DeepMind Blog

DeepMind 宣布 Gemini Deep Think 具备解决数学、物理学和计算机科学领域专业研究问题的能力,其核心亮点在于全新智能体 "Aletheia",能够迭代式地验证和修正解决方案。

Gemini 3 Deep Think:推动科学、研究与工程进步

Google DeepMind Blog

Google 发布了 Gemini 3 Deep Think 的重大更新,这是一种专门的推理模式,旨在通过将深厚的科学知识与实际应用相结合,解决科学、研究和工程领域的复杂挑战。

借助 AI for Math Initiative 加速发现

Google DeepMind Blog

Google DeepMind 和 Google 发起了 AI for Math Initiative,与五所著名研究机构合作,利用 Gemini Deep Think 和 AlphaProof 等 AI 工具加速数学发现。