@0xLogicrw: MiniMax 开发者关系负责人 Ryan Lee 宣布，面向大模型数学证明的测试时扩展框架 MaxProof 已正式开源，并发布了配套技术论文。 MaxProof 将推理阶段的数学证明重构为演化搜索系统，通过验证、修复与淘汰机制实现推理…

X AI KOLs Timeline 2026/06/12 07:17 工具

摘要

MiniMax 开源了面向大模型数学证明的测试时扩展框架 MaxProof，并发布配套论文。该框架通过演化搜索机制，使 M3 模型在 IMO 2025 和 USAMO 2026 测试集上均达到金牌分数线。

MiniMax 开发者关系负责人 Ryan Lee 宣布，面向大模型数学证明的测试时扩展框架 MaxProof 已正式开源，并发布了配套技术论文。 MaxProof 将推理阶段的数学证明重构为演化搜索系统，通过验证、修复与淘汰机制实现推理时缩放。在 MaxProof 框架的支撑下，MiniMax-M3 模型在国际奥林匹克数学竞赛（IMO 2025）与美国数学奥林匹克（USAMO 2026）测试集上分别取得 35 分与 36 分（满分 42 分），双双达到金牌分数线。在算法设计上，开发团队通过融合生成、验证与修复三大专家能力，构建了多层级防御的验证机制。生成专家以生成式验证器提供的主要奖励信号为引导，开展长程强化学习训练。验证专家专注于明确检错以降低假阳性率。修复专家则通过批判条件下的精细化微调来修正被标记的错误证明。三种专家能力最终被合并至发布的 M3 模型中。在推理阶段，MaxProof 将证明推导过程重塑为演化搜索。M3 模型被解耦为生成器、验证器、优化器和打分器四种角色。系统首先构建候选证明池作为种群，利用本地修复的补丁与重新探索的重写进行变异，最后通过锦标赛机制筛选出最佳推导。演化搜索机制成功将模型在数学证明上的 best@K 能力转化为更稳定的 pass@1 表现。

查看原文

查看缓存全文

缓存时间: 2026/06/12 12:58

MiniMax 开发者关系负责人 Ryan Lee 宣布，面向大模型数学证明的测试时扩展框架 MaxProof 已正式开源，并发布了配套技术论文。

MaxProof 将推理阶段的数学证明重构为演化搜索系统，通过验证、修复与淘汰机制实现推理时缩放。在 MaxProof 框架的支撑下，MiniMax-M3 模型在国际奥林匹克数学竞赛（IMO 2025）与美国数学奥林匹克（USAMO 2026）测试集上分别取得 35 分与 36 分（满分 42 分），双双达到金牌分数线。

在算法设计上，开发团队通过融合生成、验证与修复三大专家能力，构建了多层级防御的验证机制。生成专家以生成式验证器提供的主要奖励信号为引导，开展长程强化学习训练。验证专家专注于明确检错以降低假阳性率。修复专家则通过批判条件下的精细化微调来修正被标记的错误证明。三种专家能力最终被合并至发布的 M3 模型中。

在推理阶段，MaxProof 将证明推导过程重塑为演化搜索。M3 模型被解耦为生成器、验证器、优化器和打分器四种角色。系统首先构建候选证明池作为种群，利用本地修复的补丁与重新探索的重写进行变异，最后通过锦标赛机制筛选出最佳推导。演化搜索机制成功将模型在数学证明上的 best@K 能力转化为更稳定的 pass@1 表现。

RyanLee (@RyanLeeMiniMax): With the MaxProof framework, M3 exceeded the human gold-medal threshold on both sets. In this paper, we go deeper into the technical path behind our progress in mathematical proof: improving the base model, aligning a verifier, building refinement capability, and designing the

相似文章

Maxproof

Hacker News Top

MaxProof 引入了一种测试时缩放框架，该框架结合了证明生成、验证和修复，使用生成-验证器强化学习，使 M3 模型在 IMO 2025 和 USAMO 2026 上超过了人类金牌阈值。

MaxProof: 基于生成验证器强化学习与群体级测试时扩展的数学证明方法

Hugging Face Daily Papers

MaxProof 是一个测试时扩展框架，它利用生成验证器和群体级搜索来增强数学证明生成，在 IMO 2025 和 USAMO 2026 上取得了超过人类金牌阈值的分数。

@FinanceYF5: Google新论文：让LLM解数学竞赛题，正确率从10%跳到70%。【LEAP框架】不让模型一次写完整证明，而是把问题拆成目标树，边做边从Lean验证器的反馈里学，复用已证过的引理。结果：Putnam 2025全部12题解出，IMO风…

X AI KOLs Timeline

Google新论文提出LEAP框架，将数学问题拆解为目标树，利用Lean验证器反馈进行学习，使LLM在数学竞赛题上的正确率从10%提升至70%，解决了Putnam 2025全部12题，并在IMO基准上超越专用金牌级系统。

MiniMaxAI/MiniMax-M2.7

Hugging Face Models Trending

MiniMaxAI发布了MiniMax-M2.7，这是一个开放权重模型，具备自我进化能力、先进的智能体团队支持，并在软件工程基准测试中表现出色（SWE-Pro上56.22%，MLE Bench Lite上66.6%奖牌率），在生产事故恢复和专业工作任务中有显著应用。

@stingning：我们正在发布一个30B-A3B推理模型，该模型在物理和数学奥林匹克评估中达到了金牌水平……