SeePhys Pro：诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应

Hugging Face Daily Papers 2026/05/10 00:00 论文

multimodal-rl physics-reasoning benchmark modality-transfer blind-training visual-grounding

摘要

该论文介绍了 SeePhys Pro，这是一个用于诊断多模态强化学习（RL）中模态迁移问题的基准测试，揭示了模型在表征不变推理方面存在困难，且往往依赖残留的文本线索而非视觉证据。

我们提出了 SeePhys Pro，这是一个细粒度的模态迁移基准测试，旨在研究当关键信息逐渐从文本转移到图像时，模型是否能保持相同的推理能力。与评估单一输入形式的标准视觉关键基准测试不同，SeePhys Pro 为每个问题提供了四个语义对齐的变体，其视觉元素逐渐增加。我们的评估表明，当前前沿模型远未达到表征不变推理的水平：随着信息从语言转移到图表，性能平均有所下降，其中视觉变量定位是最关键的瓶颈。鉴于这种推理时的脆弱性，我们进一步开发了用于多模态 RLVR 的大型训练语料库，并使用盲训练作为诊断对照，发现即使对所有训练图像进行屏蔽，强化学习仍能在未屏蔽的验证集上提升性能。为了分析这一效应，我们采用了文本删除、图像屏蔽率和格式饱和控制实验，结果表明这些性能提升可能源于残留的文本和分布线索，而非有效的视觉证据。我们的结果强调，评估多模态推理不仅需要看最终答案的准确率，还需考察其在模态迁移下的鲁棒性，并通过诊断测试来检验性能提升是否依赖于任务关键的视觉证据。

查看原文

查看缓存全文

缓存时间: 2026/05/13 08:11

论文页面 - SeePhys Pro：多模态RLVR中物理推理的模态迁移与盲训练效应诊断

来源：https://huggingface.co/papers/2605.09266 作者：

摘要

SeePhys Pro基准测试揭示，当前多模态模型在信息从文本格式转换为视觉格式时，难以保持表示不变性推理能力；同时证明，盲训练（blind training）可通过残留的文本线索提升性能。

我们提出了SeePhys Pro，这是一个细粒度的模态迁移（https://huggingface.co/papers?q=modality%20transfer）基准测试，旨在研究当关键信息逐步从文本转移到图像时，模型是否能保持相同的推理能力。与评估单一输入形式的标准视觉关键（vision-essential）基准测试（https://huggingface.co/papers?q=vision-essential%20benchmarks）不同，SeePhys Pro为每个问题提供了四个语义对齐的变体，其视觉元素逐渐增加。我们的评估结果显示，当前的前沿模型远未达到表示不变性推理器（representation-invariant reasoners）（https://huggingface.co/papers?q=representation-invariant%20reasoners）的水平：随着信息从语言转移到图表，性能平均出现下降，其中视觉变量定位（visual variable grounding）（https://huggingface.co/papers?q=visual%20variable%20grounding）是最关键的瓶颈。受这种推理时的脆弱性启发，我们进一步开发了多模态RLVR（https://huggingface.co/papers?q=multimodal%20RLVR）的大规模训练语料库，并使用盲训练（https://huggingface.co/papers?q=blind%20training）作为诊断对照，发现即使所有训练图像被遮挡，强化学习（RL）仍能提升未遮挡验证集上的性能。为了分析这一效应，文本删除（text-deletion）（https://huggingface.co/papers?q=text-deletion）、图像遮挡率以及格式饱和度（format-saturation）（https://huggingface.co/papers?q=format-saturation）对照实验表明，这种性能提升可能源于残留的文本线索和分布线索，而非有效的视觉证据。我们的结果强调，评估多模态推理（multimodal reasoning）（https://huggingface.co/papers?q=multimodal%20reasoning）不仅应关注最终答案的准确率，还应关注其在模态迁移（https://huggingface.co/papers?q=modality%20transfer）下的鲁棒性，以及通过诊断测试来检验性能提升是否依赖于任务关键的视觉证据。

查看arXiv页面（https://arxiv.org/abs/2605.09266）查看PDF（https://arxiv.org/pdf/2605.09266）项目页面（https://seephyspro.github.io/）GitHub9（https://github.com/AI4Phys/SeePhy-Pro）添加到合集（https://huggingface.co/login?next=%2Fpapers%2F2605.09266）

在您的代理中获取此论文：

hf papers read 2605\.09266

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09266 即可从此页面链接。

引用此论文的数据集 4

Kun-Xiang/Track3-SeePhysPro-Testmini 查看者• 更新于约 20 小时前 • 830 • 552（https://huggingface.co/datasets/Kun-Xiang/Track3-SeePhysPro-Testmini）

Kun-Xiang/Track3-SeePhysPro-Test 查看者• 更新于约 20 小时前 • 3.32k • 147（https://huggingface.co/datasets/Kun-Xiang/Track3-SeePhysPro-Test）

Kun-Xiang/PhysRL 查看者• 更新于约 2 小时前 • 47k • 15 • 1（https://huggingface.co/datasets/Kun-Xiang/PhysRL）

Kun-Xiang/SeePhysPro 查看者• 更新于约 2 小时前 • 4.15k • 9（https://huggingface.co/datasets/Kun-Xiang/SeePhysPro）

引用此论文的空间 0

没有空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2605.09266 即可从此页面链接。

SeePhys Pro：诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应

论文页面 - SeePhys Pro：多模态RLVR中物理推理的模态迁移与盲训练效应诊断

摘要

引用此论文的模型 0

引用此论文的数据集 4

Kun-Xiang/Track3-SeePhysPro-Testmini 查看者• 更新于约 20 小时前 • 830 • 552（https://huggingface.co/datasets/Kun-Xiang/Track3-SeePhysPro-Testmini）

Kun-Xiang/Track3-SeePhysPro-Test 查看者• 更新于约 20 小时前 • 3.32k • 147（https://huggingface.co/datasets/Kun-Xiang/Track3-SeePhysPro-Test）

Kun-Xiang/PhysRL 查看者• 更新于约 2 小时前 • 47k • 15 • 1（https://huggingface.co/datasets/Kun-Xiang/PhysRL）

Kun-Xiang/SeePhysPro 查看者• 更新于约 2 小时前 • 4.15k • 9（https://huggingface.co/datasets/Kun-Xiang/SeePhysPro）

引用此论文的空间 0

包含此论文的合集 1

相似文章

看不清还是想不对？面向视觉语言推理的感知奖励

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

视觉的代价：在单一范式中实现可信的多模态推理

BilliardPhys-Bench: 多模态大语言模型的物理推理与视觉动态基准测试

Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方

提交意见反馈