[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果,包括在FrontierMath Tier 4上获得48%的得分,这是所有被评估AI系统的新最高分。
摘要
Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果,在FrontierMath Tier 4上获得48%的得分,是所有被评估AI系统中的最高分。
[https://arxiv.org/pdf/2605.06651](https://arxiv.org/pdf/2605.06651)
相似文章
AI 协作者数学家:利用代理式 AI 加速数学家的研究
本文介绍了 AI 协作者数学家(AI Co-Mathematician),这是一个利用代理式 AI 支持数学家进行构思和定理证明等开放式研究任务的工作台。早期测试表明,该系统在困难的问题解决基准测试中取得了最先进的结果,包括在 FrontierMath Tier 4 中获得了 48% 的得分。
Gemini 高级版本配合 Deep Think 在国际数学奥林匹克竞赛中正式达到金牌标准
Google DeepMind 的高级 Gemini 配合 Deep Think 在 2025 年国际数学奥林匹克竞赛中达到金牌标准,在竞赛时间限制内以自然语言端到端操作,解答了 6 道题目中的 5 道,获得 35 分——相比去年的银牌成绩取得了重大进步。
借助 AI for Math Initiative 加速发现
Google DeepMind 和 Google 发起了 AI for Math Initiative,与五所著名研究机构合作,利用 Gemini Deep Think 和 AlphaProof 等 AI 工具加速数学发现。
在 Gemini 应用中尝试 Deep Think
Google 正在为 Gemini 应用中的 Google AI Ultra 订阅者推出 Deep Think,这是一项新的推理能力,采用并行思维技术,在 2025 IMO 基准测试中达到铜牌级性能。完整的金牌级版本正与精选数学家分享用于研究目的。
@GoogleDeepMind:算法几乎存在于生活的方方面面,从自然世界的物理规律到规划航运路线……
Google DeepMind 强调其基于 Gemini 的编码智能体 AlphaEvolve 的广泛影响,展示了在基因组学、电网优化、地球科学和量子物理研究方面的重大进展。