[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果,包括在FrontierMath Tier 4上获得48%的得分,这是所有被评估AI系统的新最高分。

Reddit r/singularity 论文

摘要

Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果,在FrontierMath Tier 4上获得48%的得分,是所有被评估AI系统中的最高分。

[https://arxiv.org/pdf/2605.06651](https://arxiv.org/pdf/2605.06651)
查看原文

相似文章

AI 协作者数学家:利用代理式 AI 加速数学家的研究

Hugging Face Daily Papers

本文介绍了 AI 协作者数学家(AI Co-Mathematician),这是一个利用代理式 AI 支持数学家进行构思和定理证明等开放式研究任务的工作台。早期测试表明,该系统在困难的问题解决基准测试中取得了最先进的结果,包括在 FrontierMath Tier 4 中获得了 48% 的得分。

借助 AI for Math Initiative 加速发现

Google DeepMind Blog

Google DeepMind 和 Google 发起了 AI for Math Initiative,与五所著名研究机构合作,利用 Gemini Deep Think 和 AlphaProof 等 AI 工具加速数学发现。

在 Gemini 应用中尝试 Deep Think

Google DeepMind Blog

Google 正在为 Gemini 应用中的 Google AI Ultra 订阅者推出 Deep Think,这是一项新的推理能力,采用并行思维技术,在 2025 IMO 基准测试中达到铜牌级性能。完整的金牌级版本正与精选数学家分享用于研究目的。