RoboStressBench：具身场景中VLM对物理视觉压力鲁棒性的基准测试

Hugging Face Daily Papers 2026/05/30 00:00 论文

vision-language-models robustness benchmark embodied-ai visual-stress evaluation

摘要

RoboStressBench提出了一个基准，用于评估视觉语言模型在具身场景中对物理视觉压力（材质、视点、光照、几何）的鲁棒性，并识别特定于压力的失效模式。

视觉语言模型（VLM）已表现出强大的视觉理解能力，并越来越多地部署在具身人工智能系统中，在这些系统中，现实条件下的可靠感知至关重要。然而，现有基准使用干净图像或孤立扰动来评估VLM，而非由物理场景形成引起的压力。这种设计有两个局限性：它只覆盖了日常视觉压力的一小部分，而且某些扰动在现实具身场景中很少出现。这一差距引发了一个基本问题：我们如何以原则性的方式定义视觉压力，以捕捉物理环境中遇到的各种因素？为了解决这个问题，我们从逆图形学角度构建视觉感知，并引入了RoboStressBench，这是一个用于评估具身场景中VLM对物理视觉压力鲁棒性的基准。受物理渲染方程的启发，RoboStressBench将视觉压力分解为四个基于物理的维度：材质（M）、视点（V）、光照（L）和几何（G）。这种设计使RoboStressBench能够覆盖真实环境中的广泛视觉压力，同时允许对其在视觉识别、推理和规划等VLM能力上的影响进行受控分析。通过对最先进的VLM进行全面评估，我们识别出特定于压力的失效模式，并揭示不同的物理因素会降低不同的具身能力，而这些能力往往被整体准确率所掩盖。我们进一步引入了一个压力感知的智能求解器，它能检测视觉压力源，并在推理前调用视觉编辑技能，从而提高高压力场景下的鲁棒性。总体而言，RoboStressBench提供了一个原则性的评估框架，用于诊断和改进真实世界物理压力下的VLM感知，支持开发更可靠的具身人工智能系统。

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:23

论文页面 - RoboStressBench: 基准测试具身场景中视觉-语言模型对物理视觉压力的鲁棒性

来源: https://huggingface.co/papers/2606.00828 发布于 5月30日

由 https://huggingface.co/YUEVII 提交

LeyiWu (https://huggingface.co/YUEVII)于 6月2日

作者: Leyi Wu, Zijian He, Shu Jiang, Jianing Qiu, Xiaoyang Guo, Lin Shao, Kai Yuan, Kaiqi Huang, Rui Chen, Weiming Hu, Jun Luo, Tao Kong

摘要

RoboStressBench 提出了一个原则性的基准，用于评估视觉-语言模型在具身 AI 中对物理视觉压力的鲁棒性，将视觉压力分解为材质、视角、光照和几何四个维度。

视觉-语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)(VLM) 展现出强大的视觉理解能力，并越来越多地被部署于具身 AI (https://huggingface.co/papers?q=embodied%20AI) 系统中，在真实条件下可靠的感知至关重要。然而，现有基准通常使用清晰图像或孤立扰动评估 VLM，而非由物理场景生成过程导致的压力。这种设计存在两个局限：它仅覆盖了日常视觉压力 (https://huggingface.co/papers?q=visual%20stress) 的狭窄子集，并且某些扰动在现实具身场景中很少出现。这一差距引出一个根本性问题：我们如何以一种原则性的方式来定义视觉压力 (https://huggingface.co/papers?q=visual%20stress)，使其能够捕捉物理环境中遇到的多种因素？为了解决这一问题，我们从逆图形 (https://huggingface.co/papers?q=inverse%20graphics) 视角构建视觉感知 (https://huggingface.co/papers?q=visual%20perception)，并提出 RoboStressBench (https://huggingface.co/papers?q=RoboStressBench)，一个用于评估 VLM 在具身场景中对物理视觉压力 (https://huggingface.co/papers?q=visual%20stress) 鲁棒性的基准。受物理渲染方程 (https://huggingface.co/papers?q=physical%20rendering%20equation) 启发，RoboStressBench (https://huggingface.co/papers?q=RoboStressBench) 将视觉压力 (https://huggingface.co/papers?q=visual%20stress) 分解为四个物理为基础维度：材质 (M)、视角 (V)、光照 (L) 和几何 (G)。该设计使 RoboStressBench (https://huggingface.co/papers?q=RoboStressBench) 能够覆盖真实环境中的广泛视觉压力 (https://huggingface.co/papers?q=visual%20stress)，同时允许对其影响 VLM 能力（如视觉识别 (https://huggingface.co/papers?q=visual%20recognition)、推理和规划）进行受控分析。通过对现有最先进 VLM 的全面评估，我们识别出特定于压力的失败模式，并揭示不同物理因素会退化了不同的具身能力，这些通常被整体准确率所掩盖。我们进一步引入一个压力感知的主体求解器 (https://huggingface.co/papers?q=stress-aware%20agentic%20solver)，它能在推理前检测视觉压力 (https://huggingface.co/papers?q=visual%20stress) 源并调用视觉编辑技能 (https://huggingface.co/papers?q=visual-editing%20skills)，从而提升高压场景下的鲁棒性。总体而言，RoboStressBench (https://huggingface.co/papers?q=RoboStressBench) 提供了一个原则性的评估框架，用于诊断和改善 VLM 在真实世界物理压力下的感知，支持开发更可靠的具身 AI (https://huggingface.co/papers?q=embodied%20AI) 系统。

查看 arXiv 页面 (https://arxiv.org/abs/2606.00828)查看 PDF (https://arxiv.org/pdf/2606.00828)项目页面 (https://yuevii.github.io/robostressbench-page/)GitHub2 (https://github.com/YUEVII/RoboStressBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.00828)

在你的代理中获取此论文：

hf papers read 2606.00828

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.00828 以从此页面链接。

引用此论文的数据集1

RoboStressBench/RoboStressBench-Dataset 更新于38分钟前 • 1 (https://huggingface.co/datasets/RoboStressBench/RoboStressBench-Dataset)

引用此论文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.00828 以从此页面链接。

包含此论文的合集0

无合集包含此论文

将此论文添加到一个合集 (https://huggingface.co/new-collection) 以从此页面链接。

RoboStressBench：具身场景中VLM对物理视觉压力鲁棒性的基准测试

论文页面 - RoboStressBench: 基准测试具身场景中视觉-语言模型对物理视觉压力的鲁棒性

摘要

引用此论文的模型0

引用此论文的数据集1

RoboStressBench/RoboStressBench-Dataset 更新于38分钟前 • 1 (https://huggingface.co/datasets/RoboStressBench/RoboStressBench-Dataset)

引用此论文的 Space0

包含此论文的合集0

相似文章

WorldReasonBench：将视频生成器作为未来世界状态预测器进行人类对齐的压力测试

SleepWalk：一个用于压力测试指令引导的视觉语言导航的三层基准

MiraBench：评估机器人世界模型中的动作条件可靠性

EnvSimBench：用于评估和改善基于大语言模型的环境模拟的基准

RoboSemanticBench：诊断VLA模型动作预测中的语义基础

提交意见反馈