SeePhys Pro:诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应

Hugging Face Daily Papers 论文

摘要

该论文介绍了 SeePhys Pro,这是一个用于诊断多模态强化学习(RL)中模态迁移问题的基准测试,揭示了模型在表征不变推理方面存在困难,且往往依赖残留的文本线索而非视觉证据。

我们提出了 SeePhys Pro,这是一个细粒度的模态迁移基准测试,旨在研究当关键信息逐渐从文本转移到图像时,模型是否能保持相同的推理能力。与评估单一输入形式的标准视觉关键基准测试不同,SeePhys Pro 为每个问题提供了四个语义对齐的变体,其视觉元素逐渐增加。我们的评估表明,当前前沿模型远未达到表征不变推理的水平:随着信息从语言转移到图表,性能平均有所下降,其中视觉变量定位是最关键的瓶颈。鉴于这种推理时的脆弱性,我们进一步开发了用于多模态 RLVR 的大型训练语料库,并使用盲训练作为诊断对照,发现即使对所有训练图像进行屏蔽,强化学习仍能在未屏蔽的验证集上提升性能。为了分析这一效应,我们采用了文本删除、图像屏蔽率和格式饱和控制实验,结果表明这些性能提升可能源于残留的文本和分布线索,而非有效的视觉证据。我们的结果强调,评估多模态推理不仅需要看最终答案的准确率,还需考察其在模态迁移下的鲁棒性,并通过诊断测试来检验性能提升是否依赖于任务关键的视觉证据。
查看原文
查看缓存全文

缓存时间: 2026/05/13 08:11

论文页面 - SeePhys Pro:多模态RLVR中物理推理的模态迁移与盲训练效应诊断

来源:https://huggingface.co/papers/2605.09266 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

SeePhys Pro基准测试揭示,当前多模态模型在信息从文本格式转换为视觉格式时,难以保持表示不变性推理能力;同时证明,盲训练(blind training)可通过残留的文本线索提升性能。

我们提出了SeePhys Pro,这是一个细粒度的模态迁移(https://huggingface.co/papers?q=modality%20transfer)基准测试,旨在研究当关键信息逐步从文本转移到图像时,模型是否能保持相同的推理能力。与评估单一输入形式的标准视觉关键(vision-essential)基准测试(https://huggingface.co/papers?q=vision-essential%20benchmarks)不同,SeePhys Pro为每个问题提供了四个语义对齐的变体,其视觉元素逐渐增加。我们的评估结果显示,当前的前沿模型远未达到表示不变性推理器(representation-invariant reasoners)(https://huggingface.co/papers?q=representation-invariant%20reasoners)的水平:随着信息从语言转移到图表,性能平均出现下降,其中视觉变量定位(visual variable grounding)(https://huggingface.co/papers?q=visual%20variable%20grounding)是最关键的瓶颈。受这种推理时的脆弱性启发,我们进一步开发了多模态RLVR(https://huggingface.co/papers?q=multimodal%20RLVR)的大规模训练语料库,并使用盲训练(https://huggingface.co/papers?q=blind%20training)作为诊断对照,发现即使所有训练图像被遮挡,强化学习(RL)仍能提升未遮挡验证集上的性能。为了分析这一效应,文本删除(text-deletion)(https://huggingface.co/papers?q=text-deletion)、图像遮挡率以及格式饱和度(format-saturation)(https://huggingface.co/papers?q=format-saturation)对照实验表明,这种性能提升可能源于残留的文本线索和分布线索,而非有效的视觉证据。我们的结果强调,评估多模态推理(multimodal reasoning)(https://huggingface.co/papers?q=multimodal%20reasoning)不仅应关注最终答案的准确率,还应关注其在模态迁移(https://huggingface.co/papers?q=modality%20transfer)下的鲁棒性,以及通过诊断测试来检验性能提升是否依赖于任务关键的视觉证据。

查看arXiv页面(https://arxiv.org/abs/2605.09266)查看PDF(https://arxiv.org/pdf/2605.09266)项目页面(https://seephyspro.github.io/)GitHub9(https://github.com/AI4Phys/SeePhy-Pro)添加到合集(https://huggingface.co/login?next=%2Fpapers%2F2605.09266)

在您的代理中获取此论文:

hf papers read 2605\.09266

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09266 即可从此页面链接。

引用此论文的数据集 4

Kun-Xiang/Track3-SeePhysPro-Testmini 查看者• 更新于约 20 小时前 • 830 • 552(https://huggingface.co/datasets/Kun-Xiang/Track3-SeePhysPro-Testmini)

Kun-Xiang/Track3-SeePhysPro-Test 查看者• 更新于约 20 小时前 • 3.32k • 147(https://huggingface.co/datasets/Kun-Xiang/Track3-SeePhysPro-Test)

Kun-Xiang/PhysRL 查看者• 更新于约 2 小时前 • 47k • 15 • 1(https://huggingface.co/datasets/Kun-Xiang/PhysRL)

Kun-Xiang/SeePhysPro 查看者• 更新于约 2 小时前 • 4.15k • 9(https://huggingface.co/datasets/Kun-Xiang/SeePhysPro)

引用此论文的空间 0

没有空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2605.09266 即可从此页面链接。

包含此论文的合集 1

相似文章

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

视觉的代价:在单一范式中实现可信的多模态推理

Hugging Face Daily Papers

本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。

Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方

arXiv cs.CL

本文对多模态物理评估流程进行了审计,揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集(PhysCorp-A、PhysR1Corp、PhysOlym-A)和一个训练配方(Physics-R1),显著提高了在保留的奥赛问题上的性能。