RMA：面向研究级数学问题的智能体系统

arXiv cs.AI 2026/05/25 04:00 论文

摘要

Research Math Agents (RMA) 是一个用于研究级数学问题自动推理的智能体框架，在 First Proof 基准测试中取得最先进结果，解决了10个问题中的8个，优于 GPT-5.2R 和 Aletheia 等强基线。

arXiv:2605.22875v1 公告类型：新摘要：我们提出 $\textbf{Research Math Agents (RMA)}$，一个用于研究级数学问题自动推理的智能体框架。与以往侧重于竞赛数学或形式化定理证明的研究不同，RMA 针对需要长程推理、文献支撑和迭代证明精炼的研究级数学问题。RMA 将研究级证明求解分解为专门模块，包括问题分析、文献搜索与理解、公平比较、知识库构建和证明验证，所有这些模块由初始化、提议和验证智能体通过共享结构化记忆协调。在这个统一框架内，这些智能体以多角色、多轮工作流的方式运行，通过迭代反馈协作生成、精炼和验证候选证明。我们在 First Proof 基准测试上评估 RMA，该测试包含由跨领域专家数学家贡献的十个研究级问题。通过全面的专家评估，RMA 在 First Proof 基准测试上优于 GPT-5.2R 和 Aletheia 等强基线，解决了十个研究问题中的八个，并产生了逻辑更严谨、可读性更强的证明。我们全面的消融研究进一步表明，性能提升源于结构化推理模块、迭代精炼和基于验证器的反馈之间的交互，而非任何单一组件。我们的解决方案和实现将在论文接受后公开发布。

查看原文

查看缓存全文

缓存时间: 2026/05/25 08:54

# RMA：面向研究级数学问题的智能体系统
来源：https://arxiv.org/abs/2605.22875
查看 PDF (https://arxiv.org/pdf/2605.22875)

> 摘要：我们提出了 **Research Math Agents (RMA)**，一个用于自动推理研究级数学问题的智能体框架。与以往聚焦于竞赛数学或形式定理证明的研究不同，RMA 针对研究级数学问题——这类问题需要长程推理、文献依据和迭代式证明精炼。RMA 将研究级证明求解分解为专门模块：问题分析、文献搜索与理解、公平比较、知识库构建和证明验证，这些模块由初始者、提议者和验证者智能体通过共享的结构化记忆协同运作。在此统一框架内，这些智能体以多角色、多轮次的工作流运作，通过迭代反馈共同生成、精炼和验证候选证明。我们在 First Proof 基准上评估了 RMA，该基准包含十位专家数学家贡献的跨领域研究级问题。通过全面的专家评估，RMA 在 First Proof 基准上强于 GPT-5.2R 和 Aletheia 等基线模型，解决了十个研究问题中的八个，并生成了逻辑更严谨、可读性更强的证明。我们的综合消融研究表明，性能提升来源于结构化推理模块、迭代精炼和基于验证者的反馈之间的相互作用，而非任何单一组件。我们的解决方案和实现将在论文被接收后公开。

## 提交历史

来自：赵泽林 [查看邮件 (https://arxiv.org/show-email/b0f3eb6c/2605.22875)] **\[v1\]**2026年5月20日星期三 04:54:22 UTC (136 KB)

RMA：面向研究级数学问题的智能体系统

相似文章

AI 协作者数学家：利用代理式 AI 加速数学家的研究

递归多智能体系统

TMAS：通过多智能体协同扩展测试时计算

构建 Agentic GraphRAG 系统：从知识图谱和本体论到作为 AI 智能体 MCP 服务器的统一记忆

@GoogleResearch：介绍我们新的 agentic RAG 框架。与 Google Cloud 合作，我们的多代理工作流超越了标准 RA…

提交意见反馈