通过简单统一缩放实现金牌级奥赛推理
摘要
一篇介绍SU-01的论文,该模型为30B-A3B推理模型,通过反向困惑度课程、两阶段强化学习和测试时缩放,在IMO和IPhO问题上达到金牌级表现。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - 通过简单统一的缩放实现金牌级奥赛推理
来源:https://huggingface.co/papers/2605.13301 发表于 5月13日
#1 每日论文 (https://huggingface.co/papers/date/2026-05-15) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一种系统性方法通过反向困惑度课程、两阶段强化学习以及测试时缩放,将后训练推理模型转化为严谨的奥林匹克级别解题器,在数学和物理竞赛中达到了金牌水平的表现。
近期推理模型 (https://huggingface.co/papers?q=reasoning%20models) 的进展显著推动了长程数学和科学问题求解 (https://huggingface.co/papers?q=scientific%20problem%20solving) 的发展,已有多个系统在国际数学奥林匹克 (https://huggingface.co/papers?q=International%20Mathematical%20Olympiad)(IMO)和国际物理奥林匹克 (https://huggingface.co/papers?q=International%20Physics%20Olympiad)(IPhO)问题上达到金牌水平。本文介绍一种简单统一的方案,用于将后训练的推理主干 (https://huggingface.co/papers?q=backbone) 转化为严谨的奥林匹克级别解题器。该方案首先使用反向困惑度课程 (https://huggingface.co/papers?q=reverse-perplexity%20curriculum) 进行 SFT (https://huggingface.co/papers?q=SFT),以注入严谨的证明搜索 (https://huggingface.co/papers?q=proof-search) 和自检行为 (https://huggingface.co/papers?q=self-checking%20behaviors);随后通过两阶段 RL (https://huggingface.co/papers?q=RL) 流水线扩展这些行为,该流水线从基于可验证奖励 (https://huggingface.co/papers?q=verifiable%20rewards) 的 RL (https://huggingface.co/papers?q=RL) 逐步推进到更精细的证明级 RL (https://huggingface.co/papers?q=proof-level%20RL);最后通过测试时缩放 (https://huggingface.co/papers?q=test-time%20scaling) 提升解题性能。应用该方案,我们在约 34 万条子 8K token (https://huggingface.co/papers?q=token) 轨迹上以 SFT (https://huggingface.co/papers?q=SFT) 训练了一个 30B-A3B 主干 (https://huggingface.co/papers?q=backbone),并进行了 200 步 RL (https://huggingface.co/papers?q=RL)。最终模型 SU-01 能对困难问题进行稳定推理,轨迹超过 10 万 token (https://huggingface.co/papers?q=token),并在数学和物理奥林匹克竞赛(包括 IMO 2025/USAMO 2026 和 IPhO 2024/2025)中达到金牌级表现。此外,该模型在数学和物理之外的领域也展现出强大的科学推理泛化能力。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13301) 查看 PDF (https://arxiv.org/pdf/2605.13301) 项目页面 (https://simplified-reasoning.github.io/SU-01) GitHub20 (https://github.com/Simplified-Reasoning/SU-01) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13301)
在您的 agent 中获取此论文:
hf papers read 2605.13301
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型1
Simplified-Reasoning/SU-01 强化学习• 31B• 1天前更新 • 9 (https://huggingface.co/Simplified-Reasoning/SU-01)
引用本论文的数据集0
暂无数据集引用此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.13301,以从本页链接该数据集。
引用本论文的 Space0
暂无 Space 引用此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.13301,以从本页链接该 Space。
包含本论文的收藏集0
暂无收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以从本页链接它。
相似文章
通过简单统一的缩放实现金牌级奥赛推理
本文提出了一种简单统一的配方,结合监督微调、两阶段强化学习和测试时缩放,训练出一个推理模型(SU-01),在国际数学和物理奥林匹克竞赛中达到金牌级表现。
@stingning:我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中达到了金牌水平……
研究人员发布了SU-01,这是一个30B-A3B推理模型,在物理和数学奥林匹克问题上达到了金牌水平,使用了一种统一的证明搜索缩放方法。
@ClementDelangue: 今日论文!https://huggingface.co/papers/2605.13301…
一篇论文介绍了一种统一配方(SU-01),结合了反向困惑度课程、两阶段强化学习和测试时缩放,使用30B-A3B主干在IMO和IPhO问题上实现了金牌级别的表现。
SuCo:基于充分性的连续自适应推理
介绍 SuCo,一种用于大型推理模型的两阶段训练框架,该框架利用最小充分思维链(Minimal Sufficient CoT)的概念,在减少推理令牌数的同时,提高数学、代码和科学基准测试上的准确性。
Flow Reasoning Models: 通过迭代自我精化扩展推理能力
Flow Reasoning Models (FRMs) 为离散流模型在结构化推理任务上引入了一个训练和测试时扩展框架。通过使用 self-verification 和 self-conditioning,FRMs 在 Sudoku 和 Zebra 谜题上达到了近乎100%的求解率,而所需的迭代次数远少于之前的基准模型。