标签
MaxProof 引入了一种测试时缩放框架,该框架结合了证明生成、验证和修复,使用生成-验证器强化学习,使 M3 模型在 IMO 2025 和 USAMO 2026 上超过了人类金牌阈值。
Gemini 3.2 Flash 可以解答 IMO 2025 第6题,但只有 GPT-5.5-Pro 能够在没有脚手架或工程框架的情况下完成。
MIT 与 IMO 联合推出 MathNet,汇集 40 多国、40 年国际数学奥林匹克赛题与详解,数据量较现有数据集扩大 5 倍。
Google DeepMind 的高级 Gemini 配合 Deep Think 在 2025 年国际数学奥林匹克竞赛中达到金牌标准,在竞赛时间限制内以自然语言端到端操作,解答了 6 道题目中的 5 道,获得 35 分——相比去年的银牌成绩取得了重大进步。