通过简单统一的缩放实现金牌级奥赛推理
摘要
本文提出了一种简单统一的配方,结合监督微调、两阶段强化学习和测试时缩放,训练出一个推理模型(SU-01),在国际数学和物理奥林匹克竞赛中达到金牌级表现。
arXiv:2605.13301v1 公告类型:新
摘要:近期推理模型的进展显著推进了长程数学和科学问题的求解,多个系统在国际数学奥林匹克(IMO)和国际物理奥林匹克(IPhO)问题上已达到金牌级表现。本文介绍了一种简单统一的配方,将经过后训练的推理骨干转化为严格的奥赛级求解器。该配方首先使用逆困惑度课程进行SFT,以灌输严格的证明搜索和自我检查行为;然后通过两阶段RL流水线(从可验证奖励的RL过渡到更精细的证明级RL)来扩展这些行为;最后通过测试时缩放提升求解性能。应用该配方,我们在约34万条子8K令牌轨迹上对30B-A3B骨干进行SFT,随后进行200步RL训练。所得模型SU-01能够在超过10万令牌的轨迹上稳定推理困难问题,同时在数学和物理奥赛(包括IMO 2025/USAMO 2026和IPhO 2024/2025)中达到金牌级表现。它还展示了在数学和物理之外的领域中科学推理的强泛化能力。
查看缓存全文
缓存时间: 2026/05/14 06:15
# 通过简单统一的缩放实现金牌级奥林匹克推理 来源:https://arxiv.org/html/2605.13301 Yafu Li¹,², Runzhe Zhan¹†, Haoran Zhang¹,⁴†, Shunkai Zhang¹,⁵†, Yizhuo Li¹†, Zhilin Wang¹, Jiacheng Chen², Futing Wang¹, Xuyang Hu¹, Yuchen Fan¹, Bangjie Xu³, Yucheng Su³, Xinmiao Han³, Chenxi Li¹, Haodi Lei¹, Yufeng Zhao¹, Zejin Lin³, Qianjia Cheng¹, Tong Zhu¹, Xiaoye Qu¹, Ganqu Cui¹, Peng Ye²‡, Yun Luo²‡, Zhouchen Lin⁵, Yu Qiao¹, Bowen Zhou¹,³‡, Ning Ding³,¹‡, Yu Cheng²,¹‡ ¹上海人工智能实验室 ²香港中文大学 ³清华大学 ⁴上海交通大学 ⁵北京大学 核心贡献者。Yafu Li 是项目负责人。通讯作者。联系邮箱:[email protected] 和 [email protected]。 ###### 摘要 近期推理模型的进展显著推进了长程数学与科学问题求解,多个系统已在国际数学奥林匹克(IMO)和国际物理奥林匹克(IPhO)问题上达到金牌级性能。本文提出一种简单统一的方案,将经过后训练的推理主干模型转换为严格的奥林匹克级别求解器。该方案首先利用逆向困惑度课程进行 SFT 以灌输严格的证明搜索和自我检查行为,然后通过两级 RL 流水线扩展这些行为——从可验证奖励的 RL 逐步过渡到更精细的证明级 RL,最后通过测试时缩放提升求解性能。应用此方案,我们使用约 340K 条 8K token 以内的轨迹对 30B-A3B 主干模型进行 SFT,随后进行 200 步 RL。所得模型 SU-01 能在困难问题上稳定生成超过 100K token 的推理轨迹,并在数学与物理奥林匹克竞赛(包括 IMO 2025/USAMO 2026 和 IPhO 2024/2025)中达到金牌级性能。该模型还展现出超越数学与物理领域的科学推理泛化能力。 ![[未标注图片]](https://arxiv.org/html/2605.13301v1/x3.png) 图 1:IMO-ProofBench 上的总体对比。⋆ 表示原论文报告的结果,† 表示采用测试时缩放的结果。蓝色条带展示了我们的流水线从 30B-A3B 主干模型开始,经过严格 SFT(第2节)、粗粒度 RL、精炼 RL(第3节)以及测试时缩放(第4节),最终达到金牌级奥林匹克推理(第5节)的演进过程。 ## 1 引言 奥林匹克竞赛为长程推理提供了最清晰的压力测试之一。与许多标准基准不同,这些问题要求模型搜索大量可能的解路径,精确控制假设,验证中间结论,并给出能够在数学和科学场景中经得起严格评分的最终论证。近期系统在这一方向上取得了快速进展:AlphaGeometry 将神经引导与符号搜索结合用于奥林匹克几何问题 (Trinh 等人, 2024),而 AlphaProof、AlphaGeometry 2 和 Gemini Deep Think 通过更大的搜索与验证预算,在国际数学奥林匹克问题上达到银牌或金牌标准 (Google DeepMind, 2024; 2025)。与此同时,通用推理模型通过思维链提示、数学专用后训练及可验证奖励的强化学习进行了改进 (Wei 等人, 2022; Shao 等人, 2024; Yang 等人, 2024; Guo 等人, 2025; Yan 等人, 2025; Zhan 等人, 2025),而科学奥林匹克基准则测试了推理能力在建模、推导及竞赛风格论证中的迁移 (He 等人, 2024; Chen 等人, 2025; Luo 等人, 2026)。 因此,核心问题是:能否通过一种紧凑且领域统一的方案,将推理主干模型推至奥林匹克级别性能,使得相同的以推理为中心的流水线适用于数学和科学问题?我们使用 30B-A3B 模型构建了一个模块化流水线:SFT 重塑推理行为,RL 扩展求解能力,TTS 为最困难的证明搜索问题分配额外推理计算。这些阶段共同将行为塑造、奖励设计、经验回放和自我验证融合为一个紧凑的方案,用于严格的数学和科学推理。该设计遵循可特殊化的通才观点:我们不是构建一个狭窄的奥林匹克求解器,而是将具有广泛能力的后训练模型 specializing 为专家级别的证明推理,同时保留跨科学领域的迁移能力。 第一阶段旨在灌输更严谨的证明搜索模式。从一个在科学推理任务上已具竞争力的后训练模型出发,我们从数学、科学、编程和指令遵循来源中整理长形式解答、自我验证和自我改进轨迹。经过过滤,SFT 混合集包含 338K 条回答长度小于 8K token 的轨迹。在这些严格的证明数据上进行 SFT,向模型灌注重心放在证明搜索、自我检查和修复上的推理行为。然后我们按逆向困惑度对示例排序,使得每一次训练迭代从与初始策略最不匹配的轨迹开始,再逐步巩固到更熟悉的示例上。这种课程有助于在重塑推理行为的同时保持和恢复后训练模型的能力。 第二阶段通过两级 RL 扩展此行为。粗粒度 RL 使用可验证提示和高效结果检查,在可靠的二元奖励下扩展 SFT 引入的推理行为,遵循 RLVR 范式以实现高效的推理改进 (Guo 等人, 2025; Shao 等人, 2024)。精炼 RL 则将目标从答案正确性转向证明质量。它结合了用于评分完整证明的证明级生成式奖励模型、用于训练批判与修复行为的自我改进提示,以及用于保留困难问题上罕见成功轨迹的经验回放。 最后,我们通过自我验证与改进循环应用测试时缩放,将训练后的模型提升至奥林匹克级别的推理水平 (Huang and Yang, 2025)。在答案可验证的基准上,得到的模型 SU-01 在 AnswerBench、AMO-Bench、AIME 2025/2026 和 FrontierScience-Olympiad 上几乎与最强同规模基线 Qwen3.6-35B-A3B 持平。在面向证明的评估上,SU-01 通过直接生成达到 IMO-ProofBench 的 57.6%,通过 TTS 达到 70.2%,显著优于同规模模型,并接近 Gemini 3.1 Pro Thinking 等竞争性商业系统。除解决竞赛问题外,SU-01 在 FrontierScience-Research 上获得最佳同规模总分,表明该方案将科学推理泛化到超越奥林匹克基准的研究风格问题。 在官方竞赛问题上,SU-01 展现出超越基准风格评估的端到端推理能力。直接生成的 SU-01 已超过 IPhO 2024 和 2025 的金牌线,并在 IMO 2025 和 USAMO 2026 上达到铜牌线。结合测试时缩放,它在两项数学奥林匹克上均达到 35 分,满足 IMO 2025 金牌线,并超出 USAMO 2026 金牌线 10 分。值得注意的是,在 USAMO 2026 上,此分数与 340 名参赛者中的最高人类总分持平,表明该总体方案能够从紧凑的 30B-A3B 模型中引发出顶级的人类级别奥林匹克推理。TTS 追踪进一步展示了这种能力如何在推理时涌现:SU-01 能维持超过 100K token 的推理轨迹,根据自身的草稿和错误分析调整,并反复验证与修复候选证明。 总体而言,这些结果支持紧凑推理模型的可特殊化通才观点:通过正确的训练与推理方案,具有广泛能力的主干模型可以被驱动至专家级别的证明推理,同时保留有意义的科学迁移能力。 参照标注 图 2:SU-01 训练与推理流水线概览。该方案首先通过严格的长形式 SFT 重塑主干模型,然后通过粗粒度和精炼 RL 扩展所得行为,最后应用测试时验证与改进以实现奥林匹克级别的问题求解。 ## 2 通过 SFT 灌输严格推理 SU-01 流水线的第一阶段使用监督微调来重塑模型的推理行为。我们选择 P1-30B-A3B (Chen 等人, 2025) 作为初始模型,因为它已在科学推理中展现出竞争力,涵盖数学和物理。尽管在可验证任务上结果强劲,我们观察到其解法并不总是围绕严格的证明搜索模式组织。因此 SFT 的目的是将其推理行为重塑为更明确、更严谨且面向证明的长形式推理,同时尽可能保留其现有能力。 我们经验性地发现,对后训练主干模型应用 SFT 比从基础模型训练同样的推理行为更高效。后训练模型已经包含有用的指令遵循行为、问题求解能力和广泛的科学能力。从该检查点出发,使得 SFT 能够专注于改变推理模式,而非从头重建这些能力。在此框架中,SFT 将通才主干模型 specialized 为严格的证明搜索行为,同时保留其广泛的科学能力,为后续 RL 扩展提供更强的起始策略。 此阶段的启动配置和优化超参数总结在附录 C 中。 ### 2.1 SFT 数据整理 我们从数学、科学、指令遵循和编程来源的广泛混合中整理 SFT 提示。数学子集包括来自 Evan Chen 的奥林匹克材料¹¹⁰Evan Chen 的奥林匹克材料:https://web.evanchen.cc/、数之谜论坛²²⁰数之谜论坛是一个中文在线数学解题社区、AoPS (Art of Problem Solving)³³⁰AoPS:https://artofproblemsolving.com/、在线数学竞赛训练书籍⁴⁴⁰书籍子集来自公开可用的在线数学竞赛训练材料以及难度至少为 6 的 DeepMath 问题 (He 等人, 2025)。对于科学推理,我们包含来自 NaturalReasoning 的提示 (Yuan 等人, 2025)。为提升 SFT 模型在狭义奥林匹克风格数学之外的泛化能力,我们还加入来自 Nemotron-Instruction-Following-Chat-v1⁵⁵⁰Nemotron-Instruction-Following-Chat-v1 Hugging Face 数据集卡片:link 的聊天提示和来自 Eurus-2-RL-Data (Cui 等人, 2025a) 及 OpenCodeReasoning-2⁶⁶⁰OpenCodeReasoning-2 Hugging Face 数据集卡片:link 的编程提示;后者延续了 OpenCodeReasoning 数据蒸馏线,面向竞赛编程 (Ahmad 等人, 2025)。 参照标注 图 3:过滤后 SFT 数据的组成。数学、STEM、编程和 IF 构成直接生成组;自我验证和自我改进构成自我提升组。 在生成之前,我们首先从提示池中过滤受污染的问题。对于每个剩余的提示,我们使用 DeepSeek-V3.2-Speciale (DeepSeek-AI, 2025a) 生成高质量的长形式推理轨迹。然后过滤低质量生成,并去除长度超过 8192 token 的轨迹。此过滤步骤确保监督信号聚焦于严格且可用的推理轨迹,同时避免可能引入截断或不稳定优化的极长输出。 除了直接求解轨迹,我们还进一步赋予模型自我验证和自我改进行为。对于数学子集,我们要求 DeepSeek-V3.2-Speciale 为生成的解法生成验证轨迹,接着生成针对验证中发现问题的改进轨迹。这些示例使模型接触到对奥林匹克级别推理尤其重要的行为:检查证明是否确实成立,以及在发现缺陷时改进论证。 最终,我们获得一个包含 338K 条轨迹的过滤 SFT 混合集,如图 3 所示。 ### 2.2 用于 SFT 的逆向困惑度课程 在后训练推理模型上进行长思维链 SFT 是一个微妙的优化问题。模型已经包含强大的指令遵循和推理策略,因此 SFT 并非简单地向空主干添加新能力;它是在修改现有策略的同时试图保留原有能力。如果监督信号过窄或训练过早停止,即使模型开始模仿更明确的长形式推理,性能也可能显著下降。这种张力与 Luo 等人 (2025) 研究的长思维链退化现象一致:后训练模型通常需要足够的数据规模和足够的 SFT epoch 来吸收新的推理风格,而不覆盖先前后训练阶段安装的有用能力。 在我们的设置中,恢复的程度强烈依赖于训练时长和所得模型的长度行为 (Ren 等人, 2026)。对于上限为 8192 token 的轨迹,我们经验性地发现,如果数据混合和学习率控制得当,四个 epoch 通常足以在初始行为转变后恢复大部分模型能力。我们还把验证截断率视为 SFT 充分性的操作指标。一个尚未充分适应严格长思维链监督的后训练模型往往表现出浅层推理行为:它在局部启发式周围打转,重复中间结论,继续推理却无决定性进展。这些重复和无限推理模式自然会增加截断。实践中,我们发现低于 5% 的截断率是模型已基本适应目标推理风格的有用信号。 为使长思维链 SFT 更加稳定,我们使用逆向困惑度训练课程。令 D = {(x_i, y_i)}_{i=1}^N 为 SFT 集,其中 x_i 是提
相似文章
通过简单统一缩放实现金牌级奥赛推理
一篇介绍SU-01的论文,该模型为30B-A3B推理模型,通过反向困惑度课程、两阶段强化学习和测试时缩放,在IMO和IPhO问题上达到金牌级表现。
@stingning:我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中达到了金牌水平……
研究人员发布了SU-01,这是一个30B-A3B推理模型,在物理和数学奥林匹克问题上达到了金牌水平,使用了一种统一的证明搜索缩放方法。
@ClementDelangue: 今日论文!https://huggingface.co/papers/2605.13301…
一篇论文介绍了一种统一配方(SU-01),结合了反向困惑度课程、两阶段强化学习和测试时缩放,使用30B-A3B主干在IMO和IPhO问题上实现了金牌级别的表现。
通过过程监督改进数学推理
OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。