@stingning：我们正在发布一个30B-A3B推理模型，该模型在物理和数学奥林匹克评估中达到了金牌水平……

X AI KOLs Timeline 2026/05/15 03:08 模型

摘要

研究人员发布了SU-01，这是一个30B-A3B推理模型，在物理和数学奥林匹克问题上达到了金牌水平，使用了一种统一的证明搜索缩放方法。

我们正在发布一个30B-A3B推理模型，该模型在物理和数学奥林匹克评估中直接达到了金牌水平（IPhO），而在IMO/USAMO中则通过测试时的自我验证与改进达到了该水平。一种简单、统一的证明搜索缩放方法。 https://t.co/yc2ZlLVbD2

查看原文

查看缓存全文

缓存时间: 2026/05/15 17:06

我们正在发布一个30B-A3B推理模型，该模型在物理和数学奥林匹克评估中均达到了金牌级别：直接参与IPhO，以及通过测试时自我验证和优化的IMO/USAMO。

一种简单统一的证明搜索扩展方法。

https://t.co/yc2ZlLVbD2

论文页面 - 通过简单统一扩展实现金牌级奥林匹克推理

来源：https://huggingface.co/papers/2605.13301 发布于5月13日

当日排名第一的论文（https://huggingface.co/papers/date/2026-05-15）作者：

摘要

一种系统性的方法通过反向困惑度课程、两阶段强化学习和测试时扩展，将后训练的推理模型转化为严格的奥林匹克级别求解器，在数学和物理竞赛中取得了金牌级表现。

近期推理模型（https://huggingface.co/papers?q=reasoning%20models）的进展显著推动了长期数学和科学问题求解（https://huggingface.co/papers?q=scientific%20problem%20solving）的发展，多个系统如今已在国际数学奥林匹克（https://huggingface.co/papers?q=International%20Mathematical%20Olympiad）（IMO）和国际物理奥林匹克（https://huggingface.co/papers?q=International%20Physics%20Olympiad）（IPhO）问题上达到金牌级水平。本文介绍了一种简单统一的配方，用于将后训练的推理骨干（https://huggingface.co/papers?q=backbone）转化为严格的奥林匹克级别求解器。该配方首先使用反向困惑度课程（https://huggingface.co/papers?q=reverse-perplexity%20curriculum）进行SFT（https://huggingface.co/papers?q=SFT），以灌输严格的证明搜索（https://huggingface.co/papers?q=proof-search）和自我检查行为（https://huggingface.co/papers?q=self-checking%20behaviors），然后通过一个两阶段RL（https://huggingface.co/papers?q=RL）流程来扩展这些行为：从带有可验证奖励（https://huggingface.co/papers?q=verifiable%20rewards）的RL（https://huggingface.co/papers?q=RL）逐步过渡到更精细的证明级RL（https://huggingface.co/papers?q=proof-level%20RL），最后通过测试时扩展（https://huggingface.co/papers?q=test-time%20scaling）提升求解性能。应用此配方，我们使用SFT（https://huggingface.co/papers?q=SFT）在约34万条低于8000词元（https://huggingface.co/papers?q=token）的轨迹上训练了一个30B-A3B骨干（https://huggingface.co/papers?q=backbone）模型，随后进行200步RL（https://huggingface.co/papers?q=RL）训练。最终模型SU-01能够稳定处理困难问题，推理轨迹超过10万词元（https://huggingface.co/papers?q=token），并在数学和物理奥林匹克竞赛中达到金牌级表现，包括IMO 2025/USAMO 2026和IPhO 2024/2025。该模型还展示了在数学和物理以外的科学推理领域的强大泛化能力。

查看arXiv页面（https://arxiv.org/abs/2605.13301）查看PDF（https://arxiv.org/pdf/2605.13301）项目页面（https://simplified-reasoning.github.io/SU-01）GitHub41（https://github.com/Simplified-Reasoning/SU-01）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.13301）

在你的代理中获取此论文：

hf papers read 2605\.13301

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

Simplified-Reasoning/SU-01 强化学习• 31B• 更新于1天前 • 21 • 2 (https://huggingface.co/Simplified-Reasoning/SU-01)

引用此论文的数据集0

没有数据集链接到此论文

请在数据集的README.md中引用arxiv.org/abs/2605.13301，以便从此页面链接。

引用此论文的Spaces0

没有Space链接到此论文

请在Space的README.md中引用arxiv.org/abs/2605.13301，以便从此页面链接。

@stingning：我们正在发布一个30B-A3B推理模型，该模型在物理和数学奥林匹克评估中达到了金牌水平……

论文页面 - 通过简单统一扩展实现金牌级奥林匹克推理

摘要

引用此论文的模型1

Simplified-Reasoning/SU-01 强化学习• 31B• 更新于1天前 • 21 • 2 (https://huggingface.co/Simplified-Reasoning/SU-01)

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏2

相似文章

通过简单统一缩放实现金牌级奥赛推理

通过简单统一的缩放实现金牌级奥赛推理

@ClementDelangue: 今日论文！https://huggingface.co/papers/2605.13301…

OpenAI o1 发布

OpenAI o3-mini

提交意见反馈