@ClementDelangue: 今日论文!https://huggingface.co/papers/2605.13301…
摘要
一篇论文介绍了一种统一配方(SU-01),结合了反向困惑度课程、两阶段强化学习和测试时缩放,使用30B-A3B主干在IMO和IPhO问题上实现了金牌级别的表现。
查看缓存全文
缓存时间: 2026/05/15 21:08
今日论文! https://t.co/6LSlvyBYKh https://t.co/Px7vi37viL
论文页面 - 通过简单统一的缩放实现金牌级别奥林匹克推理
来源:https://huggingface.co/papers/2605.13301 发表于5月13日
#1 今日论文 (https://huggingface.co/papers/date/2026-05-15) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一种系统化的方法,通过反向困惑度课程、两阶段强化学习和测试时缩放,将后训练推理模型转化为严谨的奥林匹克级别求解器,在数学和物理竞赛中实现了金牌级别的性能。
近期推理模型 (https://huggingface.co/papers?q=reasoning%20models) 的进展显著提升了长程数学和科学问题求解 (https://huggingface.co/papers?q=scientific%20problem%20solving) 的能力,已有多个系统在国际数学奥林匹克竞赛 (https://huggingface.co/papers?q=International%20Mathematical%20Olympiad) (IMO) 和国际物理奥林匹克竞赛 (https://huggingface.co/papers?q=International%20Physics%20Olympiad) (IPhO) 问题中达到金牌级别性能。本文介绍了一种简单统一的方案,用于将后训练的推理骨干网络 (https://huggingface.co/papers?q=backbone) 转化为严谨的奥林匹克级别求解器。该方案首先使用反向困惑度课程 (https://huggingface.co/papers?q=reverse-perplexity%20curriculum) 进行 SFT (https://huggingface.co/papers?q=SFT),以灌输严谨的证明搜索 (https://huggingface.co/papers?q=proof-search) 和自我检查行为 (https://huggingface.co/papers?q=self-checking%20behaviors);然后通过一个两阶段 RL (https://huggingface.co/papers?q=RL) 流程(从使用可验证奖励 (https://huggingface.co/papers?q=verifiable%20rewards) 的 RL (https://huggingface.co/papers?q=RL) 演进到更精细的证明级 RL (https://huggingface.co/papers?q=proof-level%20RL))来缩放这些行为;最后利用测试时缩放 (https://huggingface.co/papers?q=test-time%20scaling) 提升求解性能。应用该方案,我们在约34万条子8K token (https://huggingface.co/papers?q=token) 轨迹上进行 SFT (https://huggingface.co/papers?q=SFT),随后执行200步 RL (https://huggingface.co/papers?q=RL) 训练,得到一个30B-A3B骨干网络 (https://huggingface.co/papers?q=backbone)。由此得到的模型 SU-01 能够对困难问题进行稳定推理,轨迹长度超过10万 token (https://huggingface.co/papers?q=token),同时在数学和物理奥林匹克竞赛(包括 IMO 2025/USAMO 2026 和 IPhO 2024/2025)中达到金牌级别性能。该模型还展现出超越数学和物理领域的科学推理强大泛化能力。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13301) 查看 PDF (https://arxiv.org/pdf/2605.13301) 项目页面 (https://simplified-reasoning.github.io/SU-01) GitHub41 (https://github.com/Simplified-Reasoning/SU-01) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13301)
在你的 agent 中获取此论文:
hf papers read 2605\.13301
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
Simplified-Reasoning/SU-01 强化学习 • 31B • 2天前更新 • 21 • 6 (https://huggingface.co/Simplified-Reasoning/SU-01)
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.13301 以从此页面链接它。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.13301 以从此页面链接它。
包含此论文的收藏4
相似文章
通过简单统一缩放实现金牌级奥赛推理
一篇介绍SU-01的论文,该模型为30B-A3B推理模型,通过反向困惑度课程、两阶段强化学习和测试时缩放,在IMO和IPhO问题上达到金牌级表现。
通过简单统一的缩放实现金牌级奥赛推理
本文提出了一种简单统一的配方,结合监督微调、两阶段强化学习和测试时缩放,训练出一个推理模型(SU-01),在国际数学和物理奥林匹克竞赛中达到金牌级表现。
@stingning:我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中达到了金牌水平……
研究人员发布了SU-01,这是一个30B-A3B推理模型,在物理和数学奥林匹克问题上达到了金牌水平,使用了一种统一的证明搜索缩放方法。
@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…
谷歌新论文提出LEAP框架,一种智能体框架,使通用大语言模型能够通过规划证明并检查每一步来解决形式化数学问题,在Lean IMO基准测试上将性能从低于10%提升至70%,并解决了所有2025年的Putnam问题。
@dair_ai: 值得一读的新论文。GPT-5.4 nano 加上 critic-comparator 编排循环在 SWE-bench Verified 上达到 76.4%,匹配…
一篇新论文表明,使用一个弱模型,通过 k=8 个提议和 critic-comparator 选择循环,可以在 SWE-bench Verified 上匹配前沿模型的性能,达到 76.4% 的准确率。关键见解是,正确的补丁通常已经存在于弱模型的前 k 个候选补丁中,挑战在于如何利用执行验证进行有效选择。