RMA:面向研究级数学问题的智能体系统
摘要
Research Math Agents (RMA) 是一个用于研究级数学问题自动推理的智能体框架,在 First Proof 基准测试中取得最先进结果,解决了10个问题中的8个,优于 GPT-5.2R 和 Aletheia 等强基线。
arXiv:2605.22875v1 公告类型:新
摘要:我们提出 $\textbf{Research Math Agents (RMA)}$,一个用于研究级数学问题自动推理的智能体框架。与以往侧重于竞赛数学或形式化定理证明的研究不同,RMA 针对需要长程推理、文献支撑和迭代证明精炼的研究级数学问题。RMA 将研究级证明求解分解为专门模块,包括问题分析、文献搜索与理解、公平比较、知识库构建和证明验证,所有这些模块由初始化、提议和验证智能体通过共享结构化记忆协调。在这个统一框架内,这些智能体以多角色、多轮工作流的方式运行,通过迭代反馈协作生成、精炼和验证候选证明。我们在 First Proof 基准测试上评估 RMA,该测试包含由跨领域专家数学家贡献的十个研究级问题。通过全面的专家评估,RMA 在 First Proof 基准测试上优于 GPT-5.2R 和 Aletheia 等强基线,解决了十个研究问题中的八个,并产生了逻辑更严谨、可读性更强的证明。我们全面的消融研究进一步表明,性能提升源于结构化推理模块、迭代精炼和基于验证器的反馈之间的交互,而非任何单一组件。我们的解决方案和实现将在论文接受后公开发布。
查看缓存全文
缓存时间: 2026/05/25 08:54
# RMA:面向研究级数学问题的智能体系统 来源:https://arxiv.org/abs/2605.22875 查看 PDF (https://arxiv.org/pdf/2605.22875) > 摘要:我们提出了 **Research Math Agents (RMA)**,一个用于自动推理研究级数学问题的智能体框架。与以往聚焦于竞赛数学或形式定理证明的研究不同,RMA 针对研究级数学问题——这类问题需要长程推理、文献依据和迭代式证明精炼。RMA 将研究级证明求解分解为专门模块:问题分析、文献搜索与理解、公平比较、知识库构建和证明验证,这些模块由初始者、提议者和验证者智能体通过共享的结构化记忆协同运作。在此统一框架内,这些智能体以多角色、多轮次的工作流运作,通过迭代反馈共同生成、精炼和验证候选证明。我们在 First Proof 基准上评估了 RMA,该基准包含十位专家数学家贡献的跨领域研究级问题。通过全面的专家评估,RMA 在 First Proof 基准上强于 GPT-5.2R 和 Aletheia 等基线模型,解决了十个研究问题中的八个,并生成了逻辑更严谨、可读性更强的证明。我们的综合消融研究表明,性能提升来源于结构化推理模块、迭代精炼和基于验证者的反馈之间的相互作用,而非任何单一组件。我们的解决方案和实现将在论文被接收后公开。 ## 提交历史 来自:赵泽林 [查看邮件 (https://arxiv.org/show-email/b0f3eb6c/2605.22875)] **\[v1\]**2026年5月20日星期三 04:54:22 UTC (136 KB)
相似文章
AI 协作者数学家:利用代理式 AI 加速数学家的研究
本文介绍了 AI 协作者数学家(AI Co-Mathematician),这是一个利用代理式 AI 支持数学家进行构思和定理证明等开放式研究任务的工作台。早期测试表明,该系统在困难的问题解决基准测试中取得了最先进的结果,包括在 FrontierMath Tier 4 中获得了 48% 的得分。
递归多智能体系统
本文提出RecursiveMAS,一种将递归扩展原则应用于多智能体系统的框架,以提升协作推理的效率和准确性。与标准基线相比,该框架在多个基准测试中实现了显著的加速和token缩减。
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。
构建 Agentic GraphRAG 系统:从知识图谱和本体论到作为 AI 智能体 MCP 服务器的统一记忆
作者认为 GraphRAG 本质上是一个数据建模问题,而非单纯的检索算法,并提出了一种包含五个组件的架构,利用本体论、知识图谱和 MCP 服务器为智能体提供统一记忆。
@GoogleResearch:介绍我们新的 agentic RAG 框架。与 Google Cloud 合作,我们的多代理工作流超越了标准 RA…
Google Research 推出了一款 agentic RAG 框架,该框架托管在 Gemini Enterprise Agent 平台上,利用多代理工作流分解复杂的企业查询,并迭代搜索足够的上下文,相比标准 RAG 准确率提升高达 34%。