RoboStressBench:具身场景中VLM对物理视觉压力鲁棒性的基准测试

Hugging Face Daily Papers 论文

摘要

RoboStressBench提出了一个基准,用于评估视觉语言模型在具身场景中对物理视觉压力(材质、视点、光照、几何)的鲁棒性,并识别特定于压力的失效模式。

视觉语言模型(VLM)已表现出强大的视觉理解能力,并越来越多地部署在具身人工智能系统中,在这些系统中,现实条件下的可靠感知至关重要。然而,现有基准使用干净图像或孤立扰动来评估VLM,而非由物理场景形成引起的压力。这种设计有两个局限性:它只覆盖了日常视觉压力的一小部分,而且某些扰动在现实具身场景中很少出现。这一差距引发了一个基本问题:我们如何以原则性的方式定义视觉压力,以捕捉物理环境中遇到的各种因素?为了解决这个问题,我们从逆图形学角度构建视觉感知,并引入了RoboStressBench,这是一个用于评估具身场景中VLM对物理视觉压力鲁棒性的基准。受物理渲染方程的启发,RoboStressBench将视觉压力分解为四个基于物理的维度:材质(M)、视点(V)、光照(L)和几何(G)。这种设计使RoboStressBench能够覆盖真实环境中的广泛视觉压力,同时允许对其在视觉识别、推理和规划等VLM能力上的影响进行受控分析。通过对最先进的VLM进行全面评估,我们识别出特定于压力的失效模式,并揭示不同的物理因素会降低不同的具身能力,而这些能力往往被整体准确率所掩盖。我们进一步引入了一个压力感知的智能求解器,它能检测视觉压力源,并在推理前调用视觉编辑技能,从而提高高压力场景下的鲁棒性。总体而言,RoboStressBench提供了一个原则性的评估框架,用于诊断和改进真实世界物理压力下的VLM感知,支持开发更可靠的具身人工智能系统。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:23

论文页面 - RoboStressBench: 基准测试具身场景中视觉-语言模型对物理视觉压力的鲁棒性

来源: https://huggingface.co/papers/2606.00828 发布于 5月30日

·

由 https://huggingface.co/YUEVII 提交

LeyiWu (https://huggingface.co/YUEVII)于 6月2日

作者: Leyi Wu, Zijian He, Shu Jiang, Jianing Qiu, Xiaoyang Guo, Lin Shao, Kai Yuan, Kaiqi Huang, Rui Chen, Weiming Hu, Jun Luo, Tao Kong

摘要

RoboStressBench 提出了一个原则性的基准,用于评估视觉-语言模型在具身 AI 中对物理视觉压力的鲁棒性,将视觉压力分解为材质、视角、光照和几何四个维度。

视觉-语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)(VLM) 展现出强大的视觉理解能力,并越来越多地被部署于具身 AI (https://huggingface.co/papers?q=embodied%20AI) 系统中,在真实条件下可靠的感知至关重要。然而,现有基准通常使用清晰图像或孤立扰动评估 VLM,而非由物理场景生成过程导致的压力。这种设计存在两个局限:它仅覆盖了日常视觉压力 (https://huggingface.co/papers?q=visual%20stress) 的狭窄子集,并且某些扰动在现实具身场景中很少出现。这一差距引出一个根本性问题:我们如何以一种原则性的方式来定义视觉压力 (https://huggingface.co/papers?q=visual%20stress),使其能够捕捉物理环境中遇到的多种因素?为了解决这一问题,我们从逆图形 (https://huggingface.co/papers?q=inverse%20graphics) 视角构建视觉感知 (https://huggingface.co/papers?q=visual%20perception),并提出 RoboStressBench (https://huggingface.co/papers?q=RoboStressBench),一个用于评估 VLM 在具身场景中对物理视觉压力 (https://huggingface.co/papers?q=visual%20stress) 鲁棒性的基准。受物理渲染方程 (https://huggingface.co/papers?q=physical%20rendering%20equation) 启发,RoboStressBench (https://huggingface.co/papers?q=RoboStressBench) 将视觉压力 (https://huggingface.co/papers?q=visual%20stress) 分解为四个物理为基础维度:材质 (M)、视角 (V)、光照 (L) 和几何 (G)。该设计使 RoboStressBench (https://huggingface.co/papers?q=RoboStressBench) 能够覆盖真实环境中的广泛视觉压力 (https://huggingface.co/papers?q=visual%20stress),同时允许对其影响 VLM 能力(如视觉识别 (https://huggingface.co/papers?q=visual%20recognition)、推理和规划)进行受控分析。通过对现有最先进 VLM 的全面评估,我们识别出特定于压力的失败模式,并揭示不同物理因素会退化了不同的具身能力,这些通常被整体准确率所掩盖。我们进一步引入一个压力感知的主体求解器 (https://huggingface.co/papers?q=stress-aware%20agentic%20solver),它能在推理前检测视觉压力 (https://huggingface.co/papers?q=visual%20stress) 源并调用视觉编辑技能 (https://huggingface.co/papers?q=visual-editing%20skills),从而提升高压场景下的鲁棒性。总体而言,RoboStressBench (https://huggingface.co/papers?q=RoboStressBench) 提供了一个原则性的评估框架,用于诊断和改善 VLM 在真实世界物理压力下的感知,支持开发更可靠的具身 AI (https://huggingface.co/papers?q=embodied%20AI) 系统。

查看 arXiv 页面 (https://arxiv.org/abs/2606.00828)查看 PDF (https://arxiv.org/pdf/2606.00828)项目页面 (https://yuevii.github.io/robostressbench-page/)GitHub2 (https://github.com/YUEVII/RoboStressBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.00828)

在你的代理中获取此论文:

hf papers read 2606.00828

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.00828 以从此页面链接。

引用此论文的数据集1

RoboStressBench/RoboStressBench-Dataset 更新于38分钟前 • 1 (https://huggingface.co/datasets/RoboStressBench/RoboStressBench-Dataset)

引用此论文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.00828 以从此页面链接。

包含此论文的合集0

无合集包含此论文

将此论文添加到一个合集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章