通过简单统一缩放实现金牌级奥赛推理

Hugging Face Daily Papers 论文

摘要

一篇介绍SU-01的论文,该模型为30B-A3B推理模型,通过反向困惑度课程、两阶段强化学习和测试时缩放,在IMO和IPhO问题上达到金牌级表现。

近期推理模型的进展显著推动了长程数学和科学问题求解能力的发展,多个系统已在国际数学奥林匹克(IMO)和国际物理奥林匹克(IPhO)问题上达到金牌级表现。本文提出一种简单统一的方案,将后训练的推理主干转化为严格的奥林匹克级求解器。该方案首先利用反向困惑度课程进行监督微调(SFT),以灌输严格的证明搜索和自我检查行为,然后通过两阶段强化学习(RL)流程扩展这些行为——从可验证奖励的RL逐步过渡到更精细的证明级RL,最后通过测试时缩放提升求解性能。应用此方案,我们使用约34万条长度不超过8K token的轨迹对30B-A3B主干进行SFT训练,随后进行200步RL。由此得到的模型SU-01能够稳定推理困难问题,轨迹长度超过10万token,同时在数学和物理奥林匹克竞赛(包括IMO 2025/USAMO 2026和IPhO 2024/2025)中达到金牌级表现。此外,该模型还在数学和物理之外的领域展现出强大的科学推理泛化能力。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - 通过简单统一的缩放实现金牌级奥赛推理

来源:https://huggingface.co/papers/2605.13301 发表于 5月13日

#1 每日论文 (https://huggingface.co/papers/date/2026-05-15) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

一种系统性方法通过反向困惑度课程、两阶段强化学习以及测试时缩放,将后训练推理模型转化为严谨的奥林匹克级别解题器,在数学和物理竞赛中达到了金牌水平的表现。

近期推理模型 (https://huggingface.co/papers?q=reasoning%20models) 的进展显著推动了长程数学和科学问题求解 (https://huggingface.co/papers?q=scientific%20problem%20solving) 的发展,已有多个系统在国际数学奥林匹克 (https://huggingface.co/papers?q=International%20Mathematical%20Olympiad)(IMO)和国际物理奥林匹克 (https://huggingface.co/papers?q=International%20Physics%20Olympiad)(IPhO)问题上达到金牌水平。本文介绍一种简单统一的方案,用于将后训练的推理主干 (https://huggingface.co/papers?q=backbone) 转化为严谨的奥林匹克级别解题器。该方案首先使用反向困惑度课程 (https://huggingface.co/papers?q=reverse-perplexity%20curriculum) 进行 SFT (https://huggingface.co/papers?q=SFT),以注入严谨的证明搜索 (https://huggingface.co/papers?q=proof-search) 和自检行为 (https://huggingface.co/papers?q=self-checking%20behaviors);随后通过两阶段 RL (https://huggingface.co/papers?q=RL) 流水线扩展这些行为,该流水线从基于可验证奖励 (https://huggingface.co/papers?q=verifiable%20rewards) 的 RL (https://huggingface.co/papers?q=RL) 逐步推进到更精细的证明级 RL (https://huggingface.co/papers?q=proof-level%20RL);最后通过测试时缩放 (https://huggingface.co/papers?q=test-time%20scaling) 提升解题性能。应用该方案,我们在约 34 万条子 8K token (https://huggingface.co/papers?q=token) 轨迹上以 SFT (https://huggingface.co/papers?q=SFT) 训练了一个 30B-A3B 主干 (https://huggingface.co/papers?q=backbone),并进行了 200 步 RL (https://huggingface.co/papers?q=RL)。最终模型 SU-01 能对困难问题进行稳定推理,轨迹超过 10 万 token (https://huggingface.co/papers?q=token),并在数学和物理奥林匹克竞赛(包括 IMO 2025/USAMO 2026 和 IPhO 2024/2025)中达到金牌级表现。此外,该模型在数学和物理之外的领域也展现出强大的科学推理泛化能力。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13301) 查看 PDF (https://arxiv.org/pdf/2605.13301) 项目页面 (https://simplified-reasoning.github.io/SU-01) GitHub20 (https://github.com/Simplified-Reasoning/SU-01) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13301)

在您的 agent 中获取此论文:

hf papers read 2605.13301

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型1

Simplified-Reasoning/SU-01 强化学习• 31B• 1天前更新 • 9 (https://huggingface.co/Simplified-Reasoning/SU-01)

引用本论文的数据集0

暂无数据集引用此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.13301,以从本页链接该数据集。

引用本论文的 Space0

暂无 Space 引用此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.13301,以从本页链接该 Space。

包含本论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以从本页链接它。

相似文章

通过简单统一的缩放实现金牌级奥赛推理

arXiv cs.AI

本文提出了一种简单统一的配方,结合监督微调、两阶段强化学习和测试时缩放,训练出一个推理模型(SU-01),在国际数学和物理奥林匹克竞赛中达到金牌级表现。

OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线

arXiv cs.CL

本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。

TEMPO:为大推理模型扩展测试时训练

Hugging Face Daily Papers

TEMPO 提出一种测试时训练框架,在策略微调与评判器再校准之间交替,防止多样性崩塌并持续放大推理模型的性能,将 Qwen3-14B 在 AIME 2024 上的得分从 42.3% 提升至 65.8%。