AI 协作者数学家:利用代理式 AI 加速数学家的研究
摘要
本文介绍了 AI 协作者数学家(AI Co-Mathematician),这是一个利用代理式 AI 支持数学家进行构思和定理证明等开放式研究任务的工作台。早期测试表明,该系统在困难的问题解决基准测试中取得了最先进的结果,包括在 FrontierMath Tier 4 中获得了 48% 的得分。
查看缓存全文
缓存时间: 2026/05/08 07:29
论文页面 - AI 共数学工作者:利用代理式 AI 加速数学家
来源:https://huggingface.co/papers/2605.06651 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
我们介绍了 AI 共数学工作者,这是一个供数学家交互式利用 AI 代理进行开放式研究的工作台。AI 共数学工作者针对数学工作流中探索性和迭代性的现实情况进行了优化,提供全面支持,包括构思、文献检索、计算探索、定理证明和理论构建。通过提供一个异步的、有状态的工作空间来管理不确定性、细化用户意图、跟踪失败的假设,并输出原生数学工件,该系统模拟了人类的协作工作流。在早期测试中,AI 共数学工作者帮助研究人员解决了未解决的问题,确定了新的研究方向,并发现了被忽视的文献引用。除了展示一种高度交互式的 AI 辅助数学发现范式外,AI 共数学工作者还在困难的问题解决基准上取得了最先进结果,包括在 FrontierMath Tier4 中获得 48% 的分数,这是所有评估 AI 系统中的新高分。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06651) 查看 PDF (https://arxiv.org/pdf/2605.06651) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06651)
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.06651 以从此页面链接。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.06651 以从此页面链接。
引用此论文的 Space 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.06651 以从此页面链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果,包括在FrontierMath Tier 4上获得48%的得分,这是所有被评估AI系统的新最高分。
Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果,在FrontierMath Tier 4上获得48%的得分,是所有被评估AI系统中的最高分。
借助 AI for Math Initiative 加速发现
Google DeepMind 和 Google 发起了 AI for Math Initiative,与五所著名研究机构合作,利用 Gemini Deep Think 和 AlphaProof 等 AI 工具加速数学发现。
大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子
作者分享了他为识别和评估公司内 AI 用例而构建的智能体研究系统的实际分解。该系统使用六个智能体进行发现、评估和上下文提取,强调人在决策环中,而非完全自主。
使用 Gemini Deep Think 加速数学与科学发现
DeepMind 宣布 Gemini Deep Think 具备解决数学、物理学和计算机科学领域专业研究问题的能力,其核心亮点在于全新智能体 "Aletheia",能够迭代式地验证和修正解决方案。
发现与证明:Lean 4中困难模式自动定理证明的开源智能体框架
本文介绍了 Discover and Prove (DAP),一个用于 Lean 4 自动定理证明的开源智能体框架,针对"困难模式"问题进行优化——即在构造形式化证明前必须独立发现答案。该工作发布了新的困难模式基准变体,达到最先进的结果,同时揭示了 LLM 答案准确率(>80%)与形式化证明器成功率(<10%)之间的巨大差距。