Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方

arXiv cs.CL 论文

摘要

本文对多模态物理评估流程进行了审计,揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集(PhysCorp-A、PhysR1Corp、PhysOlym-A)和一个训练配方(Physics-R1),显著提高了在保留的奥赛问题上的性能。

arXiv:2605.14040v1 发布类型: 新 摘要:我们对多模态物理评估流程进行了端到端的审计,并记录了三种未被发现的构建实践,这些实践扭曲了该领域衡量视觉语言推理的方式:训练-评估污染、翻译漂移和多项选择题(MCQ)饱和。(1) 公共训练池(UGPhysics-Train、SciInstruct、MMK12)在单阶段5-gram-Jaccard审计中通过了所有六个公共物理评估,零命中;三阶段审计(Jaccard -> mxbai-embed-large余弦相似度 -> Haiku-4.5大语言模型判断)仅在SciInstruct中就发现了134个近似重复项和4,846个释义候选。(2) 在59对爱沙尼亚-英语奥赛问题上,Sonnet 4.5的17个百分点差异(30.5% vs. 13.6%;符号检验p=0.011,McNemar检验p=0.021,配对自助法95%置信区间[+5.1, +28.9]个百分点)。(3) 在相同Sonnet权重下,多项选择题(PhyX上79.7%)和开放式奥赛评估(PhysOlym-A上33.4%)之间存在46个百分点的格式和新颖性梯度。我们发布了四项用于解决这些差距的产物:PhysCorp-A(6,432条记录的三阶段审计多模态语料库)、PhysR1Corp(2,268条记录的封闭形式强化学习池)、PhysOlym-A(500个问题,99.8%新源保留奥赛评估,带有原生难度标签和英/爱双语子集),以及Physics-R1,一个从Qwen3-VL-8B-Thinking冷启动的参考GSPO+DAPO配方。在3个随机种子上,Physics-R1在PhysOlym-A liberal上比8B基座模型提升了+18.3个百分点(8.0 -> 26.3 +/- 1.7;落后Sonnet 4.5为7.1个百分点),在PhysReason上提升了+15.7个百分点(23.9 -> 39.6 +/- 6.4;超过Qwen3-VL-32B和Gemini 2.5 Pro),在OlympiadBench-Physics上提升了+6.9个百分点(46.2 +/- 1.5),在PhyX MCQ上提升了+4.1个百分点(77.8 +/- 0.3)。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:18

# 经过审计的奥赛语料库与视觉物理推理配方  
来源:https://arxiv.org/html/2605.14040  
###### 摘要  
我们对多模态物理评测流水线进行了端到端审计,并记录了三种未被察觉的构建实践,这些实践扭曲了领域衡量视觉语言推理的方式:训练-评估污染、翻译漂移和选择题饱和。(1) 公开训练池(UGPhysics-Train、SciInstruct、MMK12)通过单阶段5-gram-Jaccard审计,在全部六个公开物理评估中均为零命中;三阶段审计(Jaccard→\\tomxbai-embed-large余弦→\\toHaiku-4.5 LLM评审)仅在SciInstruct中就发现了**134**个近似重复和**4,846**个改写候选。(2) 在59道配对的爱沙尼亚语-英语奥赛题上,Sonnet-4.5(Anthropic,2025 (https://arxiv.org/html/2605.14040#bib.bib53))的得分差达17个百分点(30.5% vs. 13.6%;符号检验 p=0.011,McNemar p=0.021,配对自助法95% CI [+5.1, +28.9] pp)。(3) 在相同Sonnet权重上,选择题(PhyX上79.7%)和开放式奥赛评估(PhysOlym-A上33.4%)之间存在46个百分点的格式与新颖性梯度。  
我们发布了四个解决这些差距的成果:**PhysCorp-A**(6,432条记录,经三阶段审计的多模态语料库)、**PhysR1Corp**(2,268条记录,封闭形式强化学习池)、**PhysOlym-A**(500道问题,99.8%新颖来源的保留奥赛评估,带有原生难度标签和英/爱双语子集),以及**Physics-R1**,一个从Qwen3-VL-8B-Thinking冷启动的参考GSPO+DAPO配方。在33个种子(§5 (https://arxiv.org/html/2605.14040#S5))上,Physics-R1在经审计的语料库上相比8B基础模型提升了:PhysOlym-A宽松评估+18.3个百分点(8.0→**26.3±1.7**;落后Sonnet 4.5 7.1个百分点)、PhysReason +15.7个百分点(23.9→**39.6±6.4**;超过Qwen3-VL-32B和Gemini 2.5 Pro)、OlympiadBench-Physics +6.9个百分点(**46.2±1.5**)、PhyX选择题 +4.1个百分点(**77.8±0.3**)。  

## 1 引言  
多模态物理推理越来越多地通过视觉语言基准来追踪,但很少有人审计这些基准的构建方式。研究人员整理的训练池从公开来源聚合物理问题,而这些来源的改写关系避开了传统的n-gram去重;多语言基准分发的是首先用另一种语言编写的问题的英文翻译;选择题格式的分割在封闭前沿的天花板下趋于饱和。每一种都代表了领域构建基准时的方法论差距,它们共同扭曲了跨模型比较、夸大了前沿模型在公开排行榜上的排名,并模糊了能力实际分化的格式与新颖性轴。我们认为,可辩护的多模态物理推理测量需要对评测流水线进行端到端审计。本文执行了该审计,揭示了三个测量发现,并直接针对每个发现所识别的差距构建了发布的成果。Physics-R1是一个参考的GSPO+DAPO配方(Zheng等人,2025 (https://arxiv.org/html/2605.14040#bib.bib12);Yu等人,2025 (https://arxiv.org/html/2605.14040#bib.bib11)),从Qwen3-VL-8B-Thinking(Qwen团队,2025 (https://arxiv.org/html/2605.14040#bib.bib17))冷启动,并基于MM-Eureka(Meng等人,2025 (https://arxiv.org/html/2605.14040#bib.bib33))和DeepSeek-R1的二元正确性信号(DeepSeek-AI,2025 (https://arxiv.org/html/2605.14040#bib.bib34);Shao等人,2024 (https://arxiv.org/html/2605.14040#bib.bib10)),作为语料库可训练性的证据伴随发布,而非主要贡献:它在经审计的保留评估上超越了8B基础模型,但仍落后于封闭前沿(§5.2 (https://arxiv.org/html/2605.14040#S5.SS2.SSS0.Px5))。  

#### 发现1:单阶段5-gram-Jaccard审计报告公开物理-VL训练池是干净的,但三阶段审计(Jaccard→\\tomxbai余弦→\\toLLM评审)仅在SciInstruct中就发现了**134**个近似重复和4,846个阶段2候选。  
在我们重新审计的三个已发布物理-VL训练池(UGPhysics-Train、SciInstruct的42K条记录en_phy_chem分割、MMK12的15K条记录训练池)中,针对六个公开评估,传统的5-gram-Jaccard(J≥0.4,阶段1)报告所有池对所有六个评估均为**零**命中——单阶段审计称它们全部干净。阶段2的mxbai-embed-large余弦(≥0.85)随后在SciInstruct中仅发现了**4,846**个改写类候选对(PhysReason-full占2,687,PhysUniBench-en占1,027主导),UGPhysics-Train中有99个,MMK12中有66个(表2 (https://arxiv.org/html/2605.14040#S3.T2))。阶段3,一个Haiku-4.5 LLM评审,将每个阶段2候选分类为**接近重复**或**同主题邻居**:在4,846个SciInstruct候选中,**134**个(2.8%)是接近重复,且重复比例随余弦值急剧上升(cos≥0.95时为100%,cos∈[0.85,0.87)时为1.5%)。在一个1,679条记录的研究人员整理样本(来自14,294条记录的PhysCorp-预审计)上,使用领域默认的池内去重流程,在阶段1就有345条记录(**20.5%**)泄露到六个公开评估中(主要集中在PhysUniBench-en 339条,MMMU-Pro Physics 20条);在该样本上针对内部分析评估的联合阶段1∨阶段2扫描,在已发布操作点达到**8.8%**,在cos≥0.80时达到27.1%(表[4 (https://arxiv.org/html/2605.14040#A1.T4))。  

#### 发现2:翻译在相同物理问题上引入可测量的分数差异。  
在59道配对的爱沙尼亚语/英语物理奥赛题上,Sonnet 4.5(Anthropic,2025 (https://arxiv.org/html/2605.14040#bib.bib53))在爱沙尼亚语原版上达到**30.5%**严格正确,而在相同问题的英文翻译上仅13.6%(16个不一致对的符号检验 p=0.011;McNemar精确检验 p=0.021;自助法95% CI [+5.1, +28.9] pp)。爱沙尼亚PhO问题首先用爱沙尼亚语编写;英文版本是翻译,其物理词汇、语法格映射和范围细微差别降低了信息含量。对于Sonnet 4.5(其跨语言迁移涵盖爱沙尼亚语),已发布英文翻译基准的数字系统性地**低估**了相对于原语言金标准的模型能力;对于在原语言上训练较弱的模型,预计关系会反转(附录H.4 (https://arxiv.org/html/2605.14040#A8.SS4) (viii),预注册)(§3.2 (https://arxiv.org/html/2605.14040#S3.SS2),§5.1 (https://arxiv.org/html/2605.14040#S5.SS1.SSS0.Px3))。  

#### 发现3:相同模型在三个物理基准上的评估揭示了46个百分点的格式与新颖性梯度。  
在同一周内使用相同Sonnet 4.5权重进行评估,分数从PhyX(Shen等人,2025 (https://arxiv.org/html/2605.14040#bib.bib1))(4路选择题)的**79.7%** 下滑到OlympiadBench-Physics(He等人,2024 (https://arxiv.org/html/2605.14040#bib.bib2))的**50.4%**宽松评估,再到我们保留的经审计评估的**33.4%**宽松评估——仅格式和新颖性就在固定权重上移动了46个点(§3.2 (https://arxiv.org/html/2605.14040#S3.SS2);评分见§5 (https://arxiv.org/html/2605.14040#S5))。  

这三个发现共同意味着,可辩护的物理-VL测量在构建时需要三个属性:三阶段审计(n-gram Jaccard→嵌入余弦→LLM评审精度过滤器)、原语言金标准以及开放式新颖来源评估。四个发布的成果实例化该协议:(a) **PhysCorp-A**,由三阶段流水线(算法1 (https://arxiv.org/html/2605.14040#alg1))产生的经审计多模态物理语料库,以及Physics-R1训练的封闭形式RL训练池**PhysR1Corp**(§3 (https://arxiv.org/html/2605.14040#S3));(b) **PhysOlym-A**,具有原生难度校准的开放式保留奥赛基准,包含英/爱双语子集,以及Sonnet作为评审的协议,我们披露其无法评审率(13.9%)(§3.2 (https://arxiv.org/html/2605.14040#S3.SS2),§5.1 (https://arxiv.org/html/2605.14040#S5.SS1));(c) **Physics-R1**,一个参考RL配方,其在PhysOlym-A上的经审计保留提升验证了语料库是可训练的而非记忆的(表3 (https://arxiv.org/html/2605.14040#S5.T3));我们推荐二元正确性奖励作为默认——在GSPO下具有组归一化优势时为方差最优,对单位/守恒/格式代理具有Goodhart鲁棒性,且易于移植到训练框架(§4 (https://arxiv.org/html/2605.14040#S4),属性P1–P4)——并将稠密的五组件物理原生奖励报告为形态消融;(d) 审计协议本身,作为audit_three_stage.py发布,包含保存的最佳重叠分数和阶段3评审标签(附录A (https://arxiv.org/html/2605.14040#A1))。3种子敏感性扫描(种子{42,17,23}在经审计的PhysR1Corp上)报告于表3 (https://arxiv.org/html/2605.14040#S5.T3),PUB-OE、OlymBench-Phys和PhysOlym-A上的σ≤3.3个百分点,PhysReason上的σ=6.4个百分点(种子42异常值);奖励组件丢弃消融(表11 (https://arxiv.org/html/2605.14040#A8.T11))留给后续工作。  

## 2 相关工作  
#### 基于规则的RL用于推理。  
DeepSeek-R1 (DeepSeek-AI, 2025 (https://arxiv.org/html/2605.14040#bib.bib34)) 确立了简单的基于规则奖励(二元正确性 + 格式)足以直接从基础模型训练出有竞争力的数学推理模型,而无需SFT,使用GRPO (Shao等人,2024 (https://arxiv.org/html/2605.14040#bib.bib10))。MM-Eureka (Meng等人,2025 (https://arxiv.org/html/2605.14040#bib.bib33)) 将该配方扩展到VLM,并带有难度课程;DAPO (Yu等人,2025 (https://arxiv.org/html/2605.14040#bib.bib11)) 添加了解耦裁剪和动态采样;GSPO (Zheng等人,2025 (https://arxiv.org/html/2605.14040#bib.bib12)) 用序列级重要性加权替换了令牌级。Physics-R1继承了MM-Eureka的结构选择和未经修改的二元正确性奖励:尽管物理中间步骤携带单位、守恒定律和符号方程,这些先验允许逐步骤验证,但我们发现在GSPO下,使用组归一化优势时,二元奖励是方差最优的,并且对物理原生形态开启的组内错误Goodhart通道具有鲁棒性(§4 (https://arxiv.org/html/2605.14040#S4));稠密物理原生奖励作为消融报告。  

#### 物理问答基准。  
PhyX (Shen等人,2025 (https://arxiv.org/html/2605.14040#bib.bib1))、OlympiadBench-Physics (He等人,2024 (https://arxiv.org/html/2605.14040#bib.bib2))、UGPhysics (Xu等人,2025 (https://arxiv.org/html/2605.14040#bib.bib3))、PhysReason (Zhang等人,2025 (https://arxiv.org/html/2605.14040#bib.bib4))、MMMU/MMMU-Pro (Yue等人,2024a (https://arxiv.org/html/2605.14040#bib.bib5), b (https://arxiv.org/html/2605.14040#bib.bib41))、MMK12 (Meng等人,2025 (https://arxiv.org/html/2605.14040#bib.bib33))、PHYBench (Qiu等人,2025 (https://arxiv.org/html/2605.14040#bib.bib36)) 和 PhysUniBench (Wang等人,2025b (https://arxiv.org/html/2605.14040#bib.bib37)) 是典型参考。在选择题格式上,顶级条目聚集在封闭前沿天花板十个百分点以内;只有PHYBench、OIBench和PutnamBench发布了污染协议,并且没有发布我们在§3.3 (https://arxiv.org/html/2605.14040#S3.SS3)中引入的三阶段(n-gram、嵌入、LLM评审)成对审计。表1 (https://arxiv.org/html/2605.14040#S2.T1)将我们发布的经审计语料库和PhysOlym-A与相关基准在七个轴上进行了对比。  

表 1: 发布的成果与相关基准在八个轴上的对比。*审计:* 2阶段(n-gram+嵌入)/ 1阶段 / 原始(构建新颖)/ 无。*T/T泄露:* 训练→测试联合阶段(J≥0.4 ∨ cos≥0.85)审计针对六个公开物理评估;✓所有6个 = 干净。*Diff:* 组织者难度。*X-L:* 配对跨语言。*Use:* E/T = 评估/训练。*RL-ready:* 封闭形式金标准 + 审计干净 + RL配方。“⋅” = 仅评估;“n/r” = 训练池,无跨语料库审计。只有本工作报告了训练/测试污染:重新审计清理后,PhysCorp-A(6,432)和PhysR1Corp(2,268)对所有六个评估都是干净的(表2 (https://arxiv.org/html/2605.14040#S3.T2))。  

| 基准 | 规模 | 格式 | MM | 审计 | T/T泄露 | Diff | X-L | 用途 | RL-ready |
|------|------|------|----|------|---------|------|-----|------|----------|
| *物理领域基准* | | | | | | | | | |
| PHYBench (Qiu等人,2025) | 500 | 开放式+EE | D– | 原始 | ⋅ | – | – | E | – |
| PhysUniBench (Wang等人,2025b) | 3,304 | 开放式MM | ✓ | 1阶段 | ⋅ | ✓ | – | E | – |
| UGPhysics (Xu等人,2025) | 5,520 | 开放式文本 | – | 1阶段 | n/r | – | EN/ZH | T | – |
| PhysReason (Zhang等人,2025) | 1,200 | 步骤开放式MM | ✓ | 无 | ⋅ | – | – | E | – |
| OlympiadBench (He等人,2024) | 8,952 | 开放式MM | ✓ | 无 | ⋅ | – | EN/ZH | E | – |
| *奥赛 / 形式化 / 按设计污染* | | | | | | | | | |
| PutnamBench (Tsoukalas等人,2024) | 1,692 | Lean/Isab. | – | 原始 | ⋅ | ✓ | – | E | – |
| OIBench (Zhu等人,2025) | 250 | 开放式代码 | – | 2阶段 | ⋅ | ✓ | EN/ZH | E | – |
| FrontierMath (Glazer等人,2024) | 290 | 开放式数学 | – | 原始 | ⋅ | ✓ | – | E | – |
| HLE (Phan等人,2025) | 2,500 | 专家考试 | ✓ | 原始 | ⋅ | – | – | E | – |
| *多模态 / 多领域* | | | | | | | | | |
| MMLU-Pro (Wang等人,2024) | 12,032 | 10-选择题 | – | 无 | ⋅ | – | – | E | – |
| MMMU-Pro Phys (Yue等人,2024b) | 60 | 10-选择题MM | ✓ | 无 | ⋅ | – | – | E | – |
| SciInstruct (Zhang等人,2024) | 254K | SFT指令 | – | 1阶段 | n/r | – | – | T | – |
| *本工作(报告训练→测试跨语料库审计;表2 (https://arxiv.org/html/2605.14040#S3.T2))* | | | | | | | | | |
| PhysCorp-A (ours) | 6,432 | 开放式+选择题MM | ✓ | 2阶段 | ✓所有6 | ✓ | ✓ | T | ✓ |
| PhysR1Corp (ours) | 2,268 | 选择题+数值MM | ✓ | 2阶段 | ✓所有6 | ✓ | ✓ | T | ✓ |
| PhysOlym-A (ours) | 500 | 开放式MM新颖 | ✓ | 2阶段 | ⋅(评估;干净) | ✓ | EN/ET | E | – |

✓ = 存在;– = 不存在或未报告。“2阶段”审计 = 成对5-gram-Jaccard *和*嵌入余弦针对外部语料库和保留分割。  

#### 污染审计和其他先前工作。  
PutnamBench (Tsoukalas等人,2024 (https://arxiv.org/html/2605.14040#bib.bib6))、FrontierMath (Glazer等人,2024 (https://arxiv.org/html/2605.14040#bib.bib7))、HLE (Phan等人,2025 (https://arxiv.org/html/2605.14040#bib.bib39)) 和 EnigmaEval (Wang等人,2025a (https://arxiv.org/html/2605.14040#bib.bib51)) 提供了发布策略模板和驳回理由;方法论工作涵盖n-gram审计 (Sainz等人,2023 (https://arxiv.org/html/2605.14040#bib.bib8))、重述样本失败模式 (Yang等人,2023 (https://arxiv.org/html/2605.14040#bib.bib43))(我们的阶段2捕获),基于嵌入的检测 (Singh等人,2024 (https:/

相似文章

通过简单统一的缩放实现金牌级奥赛推理

arXiv cs.AI

本文提出了一种简单统一的配方,结合监督微调、两阶段强化学习和测试时缩放,训练出一个推理模型(SU-01),在国际数学和物理奥林匹克竞赛中达到金牌级表现。