SeePhys Pro:诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应
摘要
该论文介绍了 SeePhys Pro,这是一个用于诊断多模态强化学习(RL)中模态迁移问题的基准测试,揭示了模型在表征不变推理方面存在困难,且往往依赖残留的文本线索而非视觉证据。
查看缓存全文
缓存时间: 2026/05/13 08:11
论文页面 - SeePhys Pro:多模态RLVR中物理推理的模态迁移与盲训练效应诊断
来源:https://huggingface.co/papers/2605.09266 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
SeePhys Pro基准测试揭示,当前多模态模型在信息从文本格式转换为视觉格式时,难以保持表示不变性推理能力;同时证明,盲训练(blind training)可通过残留的文本线索提升性能。
我们提出了SeePhys Pro,这是一个细粒度的模态迁移(https://huggingface.co/papers?q=modality%20transfer)基准测试,旨在研究当关键信息逐步从文本转移到图像时,模型是否能保持相同的推理能力。与评估单一输入形式的标准视觉关键(vision-essential)基准测试(https://huggingface.co/papers?q=vision-essential%20benchmarks)不同,SeePhys Pro为每个问题提供了四个语义对齐的变体,其视觉元素逐渐增加。我们的评估结果显示,当前的前沿模型远未达到表示不变性推理器(representation-invariant reasoners)(https://huggingface.co/papers?q=representation-invariant%20reasoners)的水平:随着信息从语言转移到图表,性能平均出现下降,其中视觉变量定位(visual variable grounding)(https://huggingface.co/papers?q=visual%20variable%20grounding)是最关键的瓶颈。受这种推理时的脆弱性启发,我们进一步开发了多模态RLVR(https://huggingface.co/papers?q=multimodal%20RLVR)的大规模训练语料库,并使用盲训练(https://huggingface.co/papers?q=blind%20training)作为诊断对照,发现即使所有训练图像被遮挡,强化学习(RL)仍能提升未遮挡验证集上的性能。为了分析这一效应,文本删除(text-deletion)(https://huggingface.co/papers?q=text-deletion)、图像遮挡率以及格式饱和度(format-saturation)(https://huggingface.co/papers?q=format-saturation)对照实验表明,这种性能提升可能源于残留的文本线索和分布线索,而非有效的视觉证据。我们的结果强调,评估多模态推理(multimodal reasoning)(https://huggingface.co/papers?q=multimodal%20reasoning)不仅应关注最终答案的准确率,还应关注其在模态迁移(https://huggingface.co/papers?q=modality%20transfer)下的鲁棒性,以及通过诊断测试来检验性能提升是否依赖于任务关键的视觉证据。
查看arXiv页面(https://arxiv.org/abs/2605.09266)查看PDF(https://arxiv.org/pdf/2605.09266)项目页面(https://seephyspro.github.io/)GitHub9(https://github.com/AI4Phys/SeePhy-Pro)添加到合集(https://huggingface.co/login?next=%2Fpapers%2F2605.09266)
在您的代理中获取此论文:
hf papers read 2605\.09266
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.09266 即可从此页面链接。
引用此论文的数据集 4
Kun-Xiang/Track3-SeePhysPro-Testmini 查看者• 更新于约 20 小时前 • 830 • 552(https://huggingface.co/datasets/Kun-Xiang/Track3-SeePhysPro-Testmini)
Kun-Xiang/Track3-SeePhysPro-Test 查看者• 更新于约 20 小时前 • 3.32k • 147(https://huggingface.co/datasets/Kun-Xiang/Track3-SeePhysPro-Test)
Kun-Xiang/PhysRL 查看者• 更新于约 2 小时前 • 47k • 15 • 1(https://huggingface.co/datasets/Kun-Xiang/PhysRL)
Kun-Xiang/SeePhysPro 查看者• 更新于约 2 小时前 • 4.15k • 9(https://huggingface.co/datasets/Kun-Xiang/SeePhysPro)
引用此论文的空间 0
没有空间链接此论文
在空间 README.md 中引用 arxiv.org/abs/2605.09266 即可从此页面链接。
包含此论文的合集 1
相似文章
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
视觉的代价:在单一范式中实现可信的多模态推理
本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。
BilliardPhys-Bench: 多模态大语言模型的物理推理与视觉动态基准测试
BilliardPhys-Bench 是一个新的基准测试,通过合成台球场景来评估多模态大语言模型的物理推理能力,要求预测碰撞和最终球的位置。论文发现,当前模型在较长的模拟中表现不佳,并表现出一种“静态偏差”——在不确定时预测无交互。
Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方
本文对多模态物理评估流程进行了审计,揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集(PhysCorp-A、PhysR1Corp、PhysOlym-A)和一个训练配方(Physics-R1),显著提高了在保留的奥赛问题上的性能。