@stingning:我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中达到了金牌水平……

X AI KOLs Timeline 模型

摘要

研究人员发布了SU-01,这是一个30B-A3B推理模型,在物理和数学奥林匹克问题上达到了金牌水平,使用了一种统一的证明搜索缩放方法。

我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中直接达到了金牌水平(IPhO),而在IMO/USAMO中则通过测试时的自我验证与改进达到了该水平。 一种简单、统一的证明搜索缩放方法。 https://t.co/yc2ZlLVbD2
查看原文
查看缓存全文

缓存时间: 2026/05/15 17:06

我们正在发布一个30B-A3B推理模型,该模型在物理和数学奥林匹克评估中均达到了金牌级别:直接参与IPhO,以及通过测试时自我验证和优化的IMO/USAMO。

一种简单统一的证明搜索扩展方法。

https://t.co/yc2ZlLVbD2


论文页面 - 通过简单统一扩展实现金牌级奥林匹克推理

来源:https://huggingface.co/papers/2605.13301 发布于5月13日

当日排名第一的论文(https://huggingface.co/papers/date/2026-05-15) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

一种系统性的方法通过反向困惑度课程、两阶段强化学习和测试时扩展,将后训练的推理模型转化为严格的奥林匹克级别求解器,在数学和物理竞赛中取得了金牌级表现。

近期推理模型(https://huggingface.co/papers?q=reasoning%20models)的进展显著推动了长期数学和科学问题求解(https://huggingface.co/papers?q=scientific%20problem%20solving)的发展,多个系统如今已在国际数学奥林匹克(https://huggingface.co/papers?q=International%20Mathematical%20Olympiad)(IMO)和国际物理奥林匹克(https://huggingface.co/papers?q=International%20Physics%20Olympiad)(IPhO)问题上达到金牌级水平。本文介绍了一种简单统一的配方,用于将后训练的推理骨干(https://huggingface.co/papers?q=backbone)转化为严格的奥林匹克级别求解器。该配方首先使用反向困惑度课程(https://huggingface.co/papers?q=reverse-perplexity%20curriculum)进行SFT(https://huggingface.co/papers?q=SFT),以灌输严格的证明搜索(https://huggingface.co/papers?q=proof-search)和自我检查行为(https://huggingface.co/papers?q=self-checking%20behaviors),然后通过一个两阶段RL(https://huggingface.co/papers?q=RL)流程来扩展这些行为:从带有可验证奖励(https://huggingface.co/papers?q=verifiable%20rewards)的RL(https://huggingface.co/papers?q=RL)逐步过渡到更精细的证明级RL(https://huggingface.co/papers?q=proof-level%20RL),最后通过测试时扩展(https://huggingface.co/papers?q=test-time%20scaling)提升求解性能。应用此配方,我们使用SFT(https://huggingface.co/papers?q=SFT)在约34万条低于8000词元(https://huggingface.co/papers?q=token)的轨迹上训练了一个30B-A3B骨干(https://huggingface.co/papers?q=backbone)模型,随后进行200步RL(https://huggingface.co/papers?q=RL)训练。最终模型SU-01能够稳定处理困难问题,推理轨迹超过10万词元(https://huggingface.co/papers?q=token),并在数学和物理奥林匹克竞赛中达到金牌级表现,包括IMO 2025/USAMO 2026和IPhO 2024/2025。该模型还展示了在数学和物理以外的科学推理领域的强大泛化能力。

查看arXiv页面(https://arxiv.org/abs/2605.13301)查看PDF(https://arxiv.org/pdf/2605.13301)项目页面(https://simplified-reasoning.github.io/SU-01)GitHub41(https://github.com/Simplified-Reasoning/SU-01)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.13301)

在你的代理中获取此论文:

hf papers read 2605\.13301

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

Simplified-Reasoning/SU-01 强化学习• 31B• 更新于1天前 • 21 • 2 (https://huggingface.co/Simplified-Reasoning/SU-01)

引用此论文的数据集0

没有数据集链接到此论文

请在数据集的README.md中引用arxiv.org/abs/2605.13301,以便从此页面链接。

引用此论文的Spaces0

没有Space链接到此论文

请在Space的README.md中引用arxiv.org/abs/2605.13301,以便从此页面链接。

包含此论文的收藏2

相似文章

通过简单统一缩放实现金牌级奥赛推理

Hugging Face Daily Papers

一篇介绍SU-01的论文,该模型为30B-A3B推理模型,通过反向困惑度课程、两阶段强化学习和测试时缩放,在IMO和IPhO问题上达到金牌级表现。

通过简单统一的缩放实现金牌级奥赛推理

arXiv cs.AI

本文提出了一种简单统一的配方,结合监督微调、两阶段强化学习和测试时缩放,训练出一个推理模型(SU-01),在国际数学和物理奥林匹克竞赛中达到金牌级表现。

OpenAI o1 发布

OpenAI Blog

OpenAI 发布了 o1,一系列新的推理导向型 AI 模型,在科学、编码和数学等复杂任务上表现优于前代模型。预览版模型在国际数学奥林匹克竞赛问题上的解决率达到 83%,而 GPT-4o 仅为 13%,在竞技编程中达到第 89 个百分位。

OpenAI o3-mini

OpenAI Blog

OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。