Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方

arXiv cs.CL 2026/05/15 04:00 论文

physics-reasoning vision-language multimodal olympiad benchmark-audit rl-recipe dataset

摘要

本文对多模态物理评估流程进行了审计，揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集（PhysCorp-A、PhysR1Corp、PhysOlym-A）和一个训练配方（Physics-R1），显著提高了在保留的奥赛问题上的性能。

arXiv:2605.14040v1 发布类型: 新摘要：我们对多模态物理评估流程进行了端到端的审计，并记录了三种未被发现的构建实践，这些实践扭曲了该领域衡量视觉语言推理的方式：训练-评估污染、翻译漂移和多项选择题(MCQ)饱和。(1) 公共训练池（UGPhysics-Train、SciInstruct、MMK12）在单阶段5-gram-Jaccard审计中通过了所有六个公共物理评估，零命中；三阶段审计（Jaccard -> mxbai-embed-large余弦相似度 -> Haiku-4.5大语言模型判断）仅在SciInstruct中就发现了134个近似重复项和4,846个释义候选。(2) 在59对爱沙尼亚-英语奥赛问题上，Sonnet 4.5的17个百分点差异（30.5% vs. 13.6%；符号检验p=0.011，McNemar检验p=0.021，配对自助法95%置信区间[+5.1, +28.9]个百分点）。(3) 在相同Sonnet权重下，多项选择题（PhyX上79.7%）和开放式奥赛评估（PhysOlym-A上33.4%）之间存在46个百分点的格式和新颖性梯度。我们发布了四项用于解决这些差距的产物：PhysCorp-A（6,432条记录的三阶段审计多模态语料库）、PhysR1Corp（2,268条记录的封闭形式强化学习池）、PhysOlym-A（500个问题，99.8%新源保留奥赛评估，带有原生难度标签和英/爱双语子集），以及Physics-R1，一个从Qwen3-VL-8B-Thinking冷启动的参考GSPO+DAPO配方。在3个随机种子上，Physics-R1在PhysOlym-A liberal上比8B基座模型提升了+18.3个百分点（8.0 -> 26.3 +/- 1.7；落后Sonnet 4.5为7.1个百分点），在PhysReason上提升了+15.7个百分点（23.9 -> 39.6 +/- 6.4；超过Qwen3-VL-32B和Gemini 2.5 Pro），在OlympiadBench-Physics上提升了+6.9个百分点（46.2 +/- 1.5），在PhyX MCQ上提升了+4.1个百分点（77.8 +/- 0.3）。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:18

# 经过审计的奥赛语料库与视觉物理推理配方  
来源：https://arxiv.org/html/2605.14040  
###### 摘要  
我们对多模态物理评测流水线进行了端到端审计，并记录了三种未被察觉的构建实践，这些实践扭曲了领域衡量视觉语言推理的方式：训练-评估污染、翻译漂移和选择题饱和。(1) 公开训练池（UGPhysics-Train、SciInstruct、MMK12）通过单阶段5-gram-Jaccard审计，在全部六个公开物理评估中均为零命中；三阶段审计（Jaccard→\\tomxbai-embed-large余弦→\\toHaiku-4.5 LLM评审）仅在SciInstruct中就发现了**134**个近似重复和**4,846**个改写候选。(2) 在59道配对的爱沙尼亚语-英语奥赛题上，Sonnet-4.5（Anthropic，2025 (https://arxiv.org/html/2605.14040#bib.bib53)）的得分差达17个百分点（30.5% vs. 13.6%；符号检验 p=0.011，McNemar p=0.021，配对自助法95% CI [+5.1, +28.9] pp）。(3) 在相同Sonnet权重上，选择题（PhyX上79.7%）和开放式奥赛评估（PhysOlym-A上33.4%）之间存在46个百分点的格式与新颖性梯度。  
我们发布了四个解决这些差距的成果：**PhysCorp-A**（6,432条记录，经三阶段审计的多模态语料库）、**PhysR1Corp**（2,268条记录，封闭形式强化学习池）、**PhysOlym-A**（500道问题，99.8%新颖来源的保留奥赛评估，带有原生难度标签和英/爱双语子集），以及**Physics-R1**，一个从Qwen3-VL-8B-Thinking冷启动的参考GSPO+DAPO配方。在33个种子（§5 (https://arxiv.org/html/2605.14040#S5)）上，Physics-R1在经审计的语料库上相比8B基础模型提升了：PhysOlym-A宽松评估+18.3个百分点（8.0→**26.3±1.7**；落后Sonnet 4.5 7.1个百分点）、PhysReason +15.7个百分点（23.9→**39.6±6.4**；超过Qwen3-VL-32B和Gemini 2.5 Pro）、OlympiadBench-Physics +6.9个百分点（**46.2±1.5**）、PhyX选择题 +4.1个百分点（**77.8±0.3**）。  

## 1 引言  
多模态物理推理越来越多地通过视觉语言基准来追踪，但很少有人审计这些基准的构建方式。研究人员整理的训练池从公开来源聚合物理问题，而这些来源的改写关系避开了传统的n-gram去重；多语言基准分发的是首先用另一种语言编写的问题的英文翻译；选择题格式的分割在封闭前沿的天花板下趋于饱和。每一种都代表了领域构建基准时的方法论差距，它们共同扭曲了跨模型比较、夸大了前沿模型在公开排行榜上的排名，并模糊了能力实际分化的格式与新颖性轴。我们认为，可辩护的多模态物理推理测量需要对评测流水线进行端到端审计。本文执行了该审计，揭示了三个测量发现，并直接针对每个发现所识别的差距构建了发布的成果。Physics-R1是一个参考的GSPO+DAPO配方（Zheng等人，2025 (https://arxiv.org/html/2605.14040#bib.bib12)；Yu等人，2025 (https://arxiv.org/html/2605.14040#bib.bib11)），从Qwen3-VL-8B-Thinking（Qwen团队，2025 (https://arxiv.org/html/2605.14040#bib.bib17)）冷启动，并基于MM-Eureka（Meng等人，2025 (https://arxiv.org/html/2605.14040#bib.bib33)）和DeepSeek-R1的二元正确性信号（DeepSeek-AI，2025 (https://arxiv.org/html/2605.14040#bib.bib34)；Shao等人，2024 (https://arxiv.org/html/2605.14040#bib.bib10)），作为语料库可训练性的证据伴随发布，而非主要贡献：它在经审计的保留评估上超越了8B基础模型，但仍落后于封闭前沿（§5.2 (https://arxiv.org/html/2605.14040#S5.SS2.SSS0.Px5)）。  

#### 发现1：单阶段5-gram-Jaccard审计报告公开物理-VL训练池是干净的，但三阶段审计（Jaccard→\\tomxbai余弦→\\toLLM评审）仅在SciInstruct中就发现了**134**个近似重复和4,846个阶段2候选。  
在我们重新审计的三个已发布物理-VL训练池（UGPhysics-Train、SciInstruct的42K条记录en_phy_chem分割、MMK12的15K条记录训练池）中，针对六个公开评估，传统的5-gram-Jaccard（J≥0.4，阶段1）报告所有池对所有六个评估均为**零**命中——单阶段审计称它们全部干净。阶段2的mxbai-embed-large余弦（≥0.85）随后在SciInstruct中仅发现了**4,846**个改写类候选对（PhysReason-full占2,687，PhysUniBench-en占1,027主导），UGPhysics-Train中有99个，MMK12中有66个（表2 (https://arxiv.org/html/2605.14040#S3.T2)）。阶段3，一个Haiku-4.5 LLM评审，将每个阶段2候选分类为**接近重复**或**同主题邻居**：在4,846个SciInstruct候选中，**134**个（2.8%）是接近重复，且重复比例随余弦值急剧上升（cos≥0.95时为100%，cos∈[0.85,0.87)时为1.5%）。在一个1,679条记录的研究人员整理样本（来自14,294条记录的PhysCorp-预审计）上，使用领域默认的池内去重流程，在阶段1就有345条记录（**20.5%**）泄露到六个公开评估中（主要集中在PhysUniBench-en 339条，MMMU-Pro Physics 20条）；在该样本上针对内部分析评估的联合阶段1∨阶段2扫描，在已发布操作点达到**8.8%**，在cos≥0.80时达到27.1%（表[4 (https://arxiv.org/html/2605.14040#A1.T4)）。  

#### 发现2：翻译在相同物理问题上引入可测量的分数差异。  
在59道配对的爱沙尼亚语/英语物理奥赛题上，Sonnet 4.5（Anthropic，2025 (https://arxiv.org/html/2605.14040#bib.bib53)）在爱沙尼亚语原版上达到**30.5%**严格正确，而在相同问题的英文翻译上仅13.6%（16个不一致对的符号检验 p=0.011；McNemar精确检验 p=0.021；自助法95% CI [+5.1, +28.9] pp）。爱沙尼亚PhO问题首先用爱沙尼亚语编写；英文版本是翻译，其物理词汇、语法格映射和范围细微差别降低了信息含量。对于Sonnet 4.5（其跨语言迁移涵盖爱沙尼亚语），已发布英文翻译基准的数字系统性地**低估**了相对于原语言金标准的模型能力；对于在原语言上训练较弱的模型，预计关系会反转（附录H.4 (https://arxiv.org/html/2605.14040#A8.SS4) (viii)，预注册）（§3.2 (https://arxiv.org/html/2605.14040#S3.SS2)，§5.1 (https://arxiv.org/html/2605.14040#S5.SS1.SSS0.Px3)）。  

#### 发现3：相同模型在三个物理基准上的评估揭示了46个百分点的格式与新颖性梯度。  
在同一周内使用相同Sonnet 4.5权重进行评估，分数从PhyX（Shen等人，2025 (https://arxiv.org/html/2605.14040#bib.bib1)）（4路选择题）的**79.7%** 下滑到OlympiadBench-Physics（He等人，2024 (https://arxiv.org/html/2605.14040#bib.bib2)）的**50.4%**宽松评估，再到我们保留的经审计评估的**33.4%**宽松评估——仅格式和新颖性就在固定权重上移动了46个点（§3.2 (https://arxiv.org/html/2605.14040#S3.SS2)；评分见§5 (https://arxiv.org/html/2605.14040#S5)）。  

这三个发现共同意味着，可辩护的物理-VL测量在构建时需要三个属性：三阶段审计（n-gram Jaccard→嵌入余弦→LLM评审精度过滤器）、原语言金标准以及开放式新颖来源评估。四个发布的成果实例化该协议：(a) **PhysCorp-A**，由三阶段流水线（算法1 (https://arxiv.org/html/2605.14040#alg1)）产生的经审计多模态物理语料库，以及Physics-R1训练的封闭形式RL训练池**PhysR1Corp**（§3 (https://arxiv.org/html/2605.14040#S3)）；(b) **PhysOlym-A**，具有原生难度校准的开放式保留奥赛基准，包含英/爱双语子集，以及Sonnet作为评审的协议，我们披露其无法评审率（13.9%）（§3.2 (https://arxiv.org/html/2605.14040#S3.SS2)，§5.1 (https://arxiv.org/html/2605.14040#S5.SS1)）；(c) **Physics-R1**，一个参考RL配方，其在PhysOlym-A上的经审计保留提升验证了语料库是可训练的而非记忆的（表3 (https://arxiv.org/html/2605.14040#S5.T3)）；我们推荐二元正确性奖励作为默认——在GSPO下具有组归一化优势时为方差最优，对单位/守恒/格式代理具有Goodhart鲁棒性，且易于移植到训练框架（§4 (https://arxiv.org/html/2605.14040#S4)，属性P1–P4）——并将稠密的五组件物理原生奖励报告为形态消融；(d) 审计协议本身，作为audit_three_stage.py发布，包含保存的最佳重叠分数和阶段3评审标签（附录A (https://arxiv.org/html/2605.14040#A1)）。3种子敏感性扫描（种子{42,17,23}在经审计的PhysR1Corp上）报告于表3 (https://arxiv.org/html/2605.14040#S5.T3)，PUB-OE、OlymBench-Phys和PhysOlym-A上的σ≤3.3个百分点，PhysReason上的σ=6.4个百分点（种子42异常值）；奖励组件丢弃消融（表11 (https://arxiv.org/html/2605.14040#A8.T11)）留给后续工作。  

## 2 相关工作  
#### 基于规则的RL用于推理。  
DeepSeek-R1 (DeepSeek-AI, 2025 (https://arxiv.org/html/2605.14040#bib.bib34)) 确立了简单的基于规则奖励（二元正确性 + 格式）足以直接从基础模型训练出有竞争力的数学推理模型，而无需SFT，使用GRPO (Shao等人，2024 (https://arxiv.org/html/2605.14040#bib.bib10))。MM-Eureka (Meng等人，2025 (https://arxiv.org/html/2605.14040#bib.bib33)) 将该配方扩展到VLM，并带有难度课程；DAPO (Yu等人，2025 (https://arxiv.org/html/2605.14040#bib.bib11)) 添加了解耦裁剪和动态采样；GSPO (Zheng等人，2025 (https://arxiv.org/html/2605.14040#bib.bib12)) 用序列级重要性加权替换了令牌级。Physics-R1继承了MM-Eureka的结构选择和未经修改的二元正确性奖励：尽管物理中间步骤携带单位、守恒定律和符号方程，这些先验允许逐步骤验证，但我们发现在GSPO下，使用组归一化优势时，二元奖励是方差最优的，并且对物理原生形态开启的组内错误Goodhart通道具有鲁棒性（§4 (https://arxiv.org/html/2605.14040#S4)）；稠密物理原生奖励作为消融报告。  

#### 物理问答基准。  
PhyX (Shen等人，2025 (https://arxiv.org/html/2605.14040#bib.bib1))、OlympiadBench-Physics (He等人，2024 (https://arxiv.org/html/2605.14040#bib.bib2))、UGPhysics (Xu等人，2025 (https://arxiv.org/html/2605.14040#bib.bib3))、PhysReason (Zhang等人，2025 (https://arxiv.org/html/2605.14040#bib.bib4))、MMMU/MMMU-Pro (Yue等人，2024a (https://arxiv.org/html/2605.14040#bib.bib5), b (https://arxiv.org/html/2605.14040#bib.bib41))、MMK12 (Meng等人，2025 (https://arxiv.org/html/2605.14040#bib.bib33))、PHYBench (Qiu等人，2025 (https://arxiv.org/html/2605.14040#bib.bib36)) 和 PhysUniBench (Wang等人，2025b (https://arxiv.org/html/2605.14040#bib.bib37)) 是典型参考。在选择题格式上，顶级条目聚集在封闭前沿天花板十个百分点以内；只有PHYBench、OIBench和PutnamBench发布了污染协议，并且没有发布我们在§3.3 (https://arxiv.org/html/2605.14040#S3.SS3)中引入的三阶段（n-gram、嵌入、LLM评审）成对审计。表1 (https://arxiv.org/html/2605.14040#S2.T1)将我们发布的经审计语料库和PhysOlym-A与相关基准在七个轴上进行了对比。  

表 1: 发布的成果与相关基准在八个轴上的对比。*审计:* 2阶段（n-gram+嵌入）/ 1阶段 / 原始（构建新颖）/ 无。*T/T泄露:* 训练→测试联合阶段（J≥0.4 ∨ cos≥0.85）审计针对六个公开物理评估；✓所有6个 = 干净。*Diff:* 组织者难度。*X-L:* 配对跨语言。*Use:* E/T = 评估/训练。*RL-ready:* 封闭形式金标准 + 审计干净 + RL配方。“⋅” = 仅评估；“n/r” = 训练池，无跨语料库审计。只有本工作报告了训练/测试污染：重新审计清理后，PhysCorp-A（6,432）和PhysR1Corp（2,268）对所有六个评估都是干净的（表2 (https://arxiv.org/html/2605.14040#S3.T2)）。  

| 基准 | 规模 | 格式 | MM | 审计 | T/T泄露 | Diff | X-L | 用途 | RL-ready |
|------|------|------|----|------|---------|------|-----|------|----------|
| *物理领域基准* | | | | | | | | | |
| PHYBench (Qiu等人，2025) | 500 | 开放式+EE | D– | 原始 | ⋅ | – | – | E | – |
| PhysUniBench (Wang等人，2025b) | 3,304 | 开放式MM | ✓ | 1阶段 | ⋅ | ✓ | – | E | – |
| UGPhysics (Xu等人，2025) | 5,520 | 开放式文本 | – | 1阶段 | n/r | – | EN/ZH | T | – |
| PhysReason (Zhang等人，2025) | 1,200 | 步骤开放式MM | ✓ | 无 | ⋅ | – | – | E | – |
| OlympiadBench (He等人，2024) | 8,952 | 开放式MM | ✓ | 无 | ⋅ | – | EN/ZH | E | – |
| *奥赛 / 形式化 / 按设计污染* | | | | | | | | | |
| PutnamBench (Tsoukalas等人，2024) | 1,692 | Lean/Isab. | – | 原始 | ⋅ | ✓ | – | E | – |
| OIBench (Zhu等人，2025) | 250 | 开放式代码 | – | 2阶段 | ⋅ | ✓ | EN/ZH | E | – |
| FrontierMath (Glazer等人，2024) | 290 | 开放式数学 | – | 原始 | ⋅ | ✓ | – | E | – |
| HLE (Phan等人，2025) | 2,500 | 专家考试 | ✓ | 原始 | ⋅ | – | – | E | – |
| *多模态 / 多领域* | | | | | | | | | |
| MMLU-Pro (Wang等人，2024) | 12,032 | 10-选择题 | – | 无 | ⋅ | – | – | E | – |
| MMMU-Pro Phys (Yue等人，2024b) | 60 | 10-选择题MM | ✓ | 无 | ⋅ | – | – | E | – |
| SciInstruct (Zhang等人，2024) | 254K | SFT指令 | – | 1阶段 | n/r | – | – | T | – |
| *本工作（报告训练→测试跨语料库审计；表2 (https://arxiv.org/html/2605.14040#S3.T2)）* | | | | | | | | | |
| PhysCorp-A (ours) | 6,432 | 开放式+选择题MM | ✓ | 2阶段 | ✓所有6 | ✓ | ✓ | T | ✓ |
| PhysR1Corp (ours) | 2,268 | 选择题+数值MM | ✓ | 2阶段 | ✓所有6 | ✓ | ✓ | T | ✓ |
| PhysOlym-A (ours) | 500 | 开放式MM新颖 | ✓ | 2阶段 | ⋅（评估；干净） | ✓ | EN/ET | E | – |

✓ = 存在；– = 不存在或未报告。“2阶段”审计 = 成对5-gram-Jaccard *和*嵌入余弦针对外部语料库和保留分割。  

#### 污染审计和其他先前工作。  
PutnamBench (Tsoukalas等人，2024 (https://arxiv.org/html/2605.14040#bib.bib6))、FrontierMath (Glazer等人，2024 (https://arxiv.org/html/2605.14040#bib.bib7))、HLE (Phan等人，2025 (https://arxiv.org/html/2605.14040#bib.bib39)) 和 EnigmaEval (Wang等人，2025a (https://arxiv.org/html/2605.14040#bib.bib51)) 提供了发布策略模板和驳回理由；方法论工作涵盖n-gram审计 (Sainz等人，2023 (https://arxiv.org/html/2605.14040#bib.bib8))、重述样本失败模式 (Yang等人，2023 (https://arxiv.org/html/2605.14040#bib.bib43))（我们的阶段2捕获），基于嵌入的检测 (Singh等人，2024 (https:/

Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方

相似文章

SeePhys Pro：诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应

BilliardPhys-Bench: 多模态大语言模型的物理推理与视觉动态基准测试

通过简单统一的缩放实现金牌级奥赛推理

面向LLM推理的科学逻辑性增强方法：以物理学为例

@stingning：我们正在发布一个30B-A3B推理模型，该模型在物理和数学奥林匹克评估中达到了金牌水平……

提交意见反馈