标签
MaxProof 引入了一种测试时缩放框架,该框架结合了证明生成、验证和修复,使用生成-验证器强化学习,使 M3 模型在 IMO 2025 和 USAMO 2026 上超过了人类金牌阈值。
MaxProof 是一个测试时扩展框架,它利用生成验证器和群体级搜索来增强数学证明生成,在 IMO 2025 和 USAMO 2026 上取得了超过人类金牌阈值的分数。