AI 协作者数学家:利用代理式 AI 加速数学家的研究

Hugging Face Daily Papers 论文

摘要

本文介绍了 AI 协作者数学家(AI Co-Mathematician),这是一个利用代理式 AI 支持数学家进行构思和定理证明等开放式研究任务的工作台。早期测试表明,该系统在困难的问题解决基准测试中取得了最先进的结果,包括在 FrontierMath Tier 4 中获得了 48% 的得分。

我们推出了 AI 协作者数学家,这是一个供数学家互动式利用 AI 代理开展开放式研究的工作台。AI 协作者数学家经过优化,旨在为数学工作流中探索和迭代的实际过程提供全面支持,包括构思、文献检索、计算探索、定理证明和理论构建。通过提供一个管理不确定性、细化用户意图、追踪失败假设并输出原生数学工件的异步、有状态工作空间,该系统模拟了人类的协作工作流。在早期测试中,AI 协作者数学家帮助研究人员解决了开放性问题,确定了新的研究方向,并发现了被忽视的文献引用。除了展示一种高度互动的 AI 辅助数学发现范式外,AI 协作者数学家还在困难的问题解决基准测试中取得了最先进的结果,包括在 FrontierMath Tier 4 中获得 48% 的得分,这是所有经过评估的 AI 系统中的最高分。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:29

论文页面 - AI 共数学工作者:利用代理式 AI 加速数学家

来源:https://huggingface.co/papers/2605.06651 作者:

摘要

我们介绍了 AI 共数学工作者,这是一个供数学家交互式利用 AI 代理进行开放式研究的工作台。AI 共数学工作者针对数学工作流中探索性和迭代性的现实情况进行了优化,提供全面支持,包括构思、文献检索、计算探索、定理证明和理论构建。通过提供一个异步的、有状态的工作空间来管理不确定性、细化用户意图、跟踪失败的假设,并输出原生数学工件,该系统模拟了人类的协作工作流。在早期测试中,AI 共数学工作者帮助研究人员解决了未解决的问题,确定了新的研究方向,并发现了被忽视的文献引用。除了展示一种高度交互式的 AI 辅助数学发现范式外,AI 共数学工作者还在困难的问题解决基准上取得了最先进结果,包括在 FrontierMath Tier4 中获得 48% 的分数,这是所有评估 AI 系统中的新高分。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06651) 查看 PDF (https://arxiv.org/pdf/2605.06651) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06651)

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06651 以从此页面链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06651 以从此页面链接。

引用此论文的 Space 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.06651 以从此页面链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

借助 AI for Math Initiative 加速发现

Google DeepMind Blog

Google DeepMind 和 Google 发起了 AI for Math Initiative,与五所著名研究机构合作,利用 Gemini Deep Think 和 AlphaProof 等 AI 工具加速数学发现。

使用 Gemini Deep Think 加速数学与科学发现

Google DeepMind Blog

DeepMind 宣布 Gemini Deep Think 具备解决数学、物理学和计算机科学领域专业研究问题的能力,其核心亮点在于全新智能体 "Aletheia",能够迭代式地验证和修正解决方案。

发现与证明:Lean 4中困难模式自动定理证明的开源智能体框架

arXiv cs.CL

本文介绍了 Discover and Prove (DAP),一个用于 Lean 4 自动定理证明的开源智能体框架,针对"困难模式"问题进行优化——即在构造形式化证明前必须独立发现答案。该工作发布了新的困难模式基准变体,达到最先进的结果,同时揭示了 LLM 答案准确率(>80%)与形式化证明器成功率(<10%)之间的巨大差距。