@stingning:我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中达到了金牌水平……
摘要
研究人员发布了SU-01,这是一个30B-A3B推理模型,在物理和数学奥林匹克问题上达到了金牌水平,使用了一种统一的证明搜索缩放方法。
查看缓存全文
缓存时间: 2026/05/15 17:06
我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中均达到了金牌级别:直接参与IPhO,以及通过测试时自我验证和优化的IMO/USAMO。
一种简单统一的证明搜索扩展方法。
https://t.co/yc2ZlLVbD2
论文页面 - 通过简单统一扩展实现金牌级奥林匹克推理
来源:https://huggingface.co/papers/2605.13301 发布于5月13日
当日排名第一的论文(https://huggingface.co/papers/date/2026-05-15) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一种系统性的方法通过反向困惑度课程、两阶段强化学习和测试时扩展,将后训练的推理模型转化为严格的奥林匹克级别求解器,在数学和物理竞赛中取得了金牌级表现。
近期推理模型(https://huggingface.co/papers?q=reasoning%20models)的进展显著推动了长期数学和科学问题求解(https://huggingface.co/papers?q=scientific%20problem%20solving)的发展,多个系统如今已在国际数学奥林匹克(https://huggingface.co/papers?q=International%20Mathematical%20Olympiad)(IMO)和国际物理奥林匹克(https://huggingface.co/papers?q=International%20Physics%20Olympiad)(IPhO)问题上达到金牌级水平。本文介绍了一种简单统一的配方,用于将后训练的推理骨干(https://huggingface.co/papers?q=backbone)转化为严格的奥林匹克级别求解器。该配方首先使用反向困惑度课程(https://huggingface.co/papers?q=reverse-perplexity%20curriculum)进行SFT(https://huggingface.co/papers?q=SFT),以灌输严格的证明搜索(https://huggingface.co/papers?q=proof-search)和自我检查行为(https://huggingface.co/papers?q=self-checking%20behaviors),然后通过一个两阶段RL(https://huggingface.co/papers?q=RL)流程来扩展这些行为:从带有可验证奖励(https://huggingface.co/papers?q=verifiable%20rewards)的RL(https://huggingface.co/papers?q=RL)逐步过渡到更精细的证明级RL(https://huggingface.co/papers?q=proof-level%20RL),最后通过测试时扩展(https://huggingface.co/papers?q=test-time%20scaling)提升求解性能。应用此配方,我们使用SFT(https://huggingface.co/papers?q=SFT)在约34万条低于8000词元(https://huggingface.co/papers?q=token)的轨迹上训练了一个30B-A3B骨干(https://huggingface.co/papers?q=backbone)模型,随后进行200步RL(https://huggingface.co/papers?q=RL)训练。最终模型SU-01能够稳定处理困难问题,推理轨迹超过10万词元(https://huggingface.co/papers?q=token),并在数学和物理奥林匹克竞赛中达到金牌级表现,包括IMO 2025/USAMO 2026和IPhO 2024/2025。该模型还展示了在数学和物理以外的科学推理领域的强大泛化能力。
查看arXiv页面(https://arxiv.org/abs/2605.13301)查看PDF(https://arxiv.org/pdf/2605.13301)项目页面(https://simplified-reasoning.github.io/SU-01)GitHub41(https://github.com/Simplified-Reasoning/SU-01)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.13301)
在你的代理中获取此论文:
hf papers read 2605\.13301
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
Simplified-Reasoning/SU-01 强化学习• 31B• 更新于1天前 • 21 • 2 (https://huggingface.co/Simplified-Reasoning/SU-01)
引用此论文的数据集0
没有数据集链接到此论文
请在数据集的README.md中引用arxiv.org/abs/2605.13301,以便从此页面链接。
引用此论文的Spaces0
没有Space链接到此论文
请在Space的README.md中引用arxiv.org/abs/2605.13301,以便从此页面链接。
包含此论文的收藏2
相似文章
通过简单统一缩放实现金牌级奥赛推理
一篇介绍SU-01的论文,该模型为30B-A3B推理模型,通过反向困惑度课程、两阶段强化学习和测试时缩放,在IMO和IPhO问题上达到金牌级表现。
通过简单统一的缩放实现金牌级奥赛推理
本文提出了一种简单统一的配方,结合监督微调、两阶段强化学习和测试时缩放,训练出一个推理模型(SU-01),在国际数学和物理奥林匹克竞赛中达到金牌级表现。
@ClementDelangue: 今日论文!https://huggingface.co/papers/2605.13301…
一篇论文介绍了一种统一配方(SU-01),结合了反向困惑度课程、两阶段强化学习和测试时缩放,使用30B-A3B主干在IMO和IPhO问题上实现了金牌级别的表现。
OpenAI o1 发布
OpenAI 发布了 o1,一系列新的推理导向型 AI 模型,在科学、编码和数学等复杂任务上表现优于前代模型。预览版模型在国际数学奥林匹克竞赛问题上的解决率达到 83%,而 GPT-4o 仅为 13%,在竞技编程中达到第 89 个百分位。
OpenAI o3-mini
OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。