@0xLogicrw: MiniMax 开发者关系负责人 Ryan Lee 宣布,面向大模型数学证明的测试时扩展框架 MaxProof 已正式开源,并发布了配套技术论文。 MaxProof 将推理阶段的数学证明重构为演化搜索系统,通过验证、修复与淘汰机制实现推理…
摘要
MiniMax 开源了面向大模型数学证明的测试时扩展框架 MaxProof,并发布配套论文。该框架通过演化搜索机制,使 M3 模型在 IMO 2025 和 USAMO 2026 测试集上均达到金牌分数线。
查看缓存全文
缓存时间: 2026/06/12 12:58
MiniMax 开发者关系负责人 Ryan Lee 宣布,面向大模型数学证明的测试时扩展框架 MaxProof 已正式开源,并发布了配套技术论文。
MaxProof 将推理阶段的数学证明重构为演化搜索系统,通过验证、修复与淘汰机制实现推理时缩放。在 MaxProof 框架的支撑下,MiniMax-M3 模型在国际奥林匹克数学竞赛(IMO 2025)与美国数学奥林匹克(USAMO 2026)测试集上分别取得 35 分与 36 分(满分 42 分),双双达到金牌分数线。
在算法设计上,开发团队通过融合生成、验证与修复三大专家能力,构建了多层级防御的验证机制。生成专家以生成式验证器提供的主要奖励信号为引导,开展长程强化学习训练。验证专家专注于明确检错以降低假阳性率。修复专家则通过批判条件下的精细化微调来修正被标记的错误证明。三种专家能力最终被合并至发布的 M3 模型中。
在推理阶段,MaxProof 将证明推导过程重塑为演化搜索。M3 模型被解耦为生成器、验证器、优化器和打分器四种角色。系统首先构建候选证明池作为种群,利用本地修复的补丁与重新探索的重写进行变异,最后通过锦标赛机制筛选出最佳推导。演化搜索机制成功将模型在数学证明上的 best@K 能力转化为更稳定的 pass@1 表现。
RyanLee (@RyanLeeMiniMax): With the MaxProof framework, M3 exceeded the human gold-medal threshold on both sets. In this paper, we go deeper into the technical path behind our progress in mathematical proof: improving the base model, aligning a verifier, building refinement capability, and designing the
相似文章
Maxproof
MaxProof 引入了一种测试时缩放框架,该框架结合了证明生成、验证和修复,使用生成-验证器强化学习,使 M3 模型在 IMO 2025 和 USAMO 2026 上超过了人类金牌阈值。
MaxProof: 基于生成验证器强化学习与群体级测试时扩展的数学证明方法
MaxProof 是一个测试时扩展框架,它利用生成验证器和群体级搜索来增强数学证明生成,在 IMO 2025 和 USAMO 2026 上取得了超过人类金牌阈值的分数。
@FinanceYF5: Google新论文:让LLM解数学竞赛题,正确率从10%跳到70%。 【LEAP框架】不让模型一次写完整证明,而是把问题拆成目标树,边做边从Lean验证器的反馈里学,复用已证过的引理。 结果:Putnam 2025全部12题解出,IMO风…
Google新论文提出LEAP框架,将数学问题拆解为目标树,利用Lean验证器反馈进行学习,使LLM在数学竞赛题上的正确率从10%提升至70%,解决了Putnam 2025全部12题,并在IMO基准上超越专用金牌级系统。
MiniMaxAI/MiniMax-M2.7
MiniMaxAI发布了MiniMax-M2.7,这是一个开放权重模型,具备自我进化能力、先进的智能体团队支持,并在软件工程基准测试中表现出色(SWE-Pro上56.22%,MLE Bench Lite上66.6%奖牌率),在生产事故恢复和专业工作任务中有显著应用。
@stingning:我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中达到了金牌水平……
研究人员发布了SU-01,这是一个30B-A3B推理模型,在物理和数学奥林匹克问题上达到了金牌水平,使用了一种统一的证明搜索缩放方法。