StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型

Hugging Face Daily Papers 论文

摘要

本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。

在训练数据集中穷尽所有可能的干扰是不现实的。这引发了一个关键问题:当视觉-语言-动作(VLA)模型遭遇未见过的真实世界视觉干扰时(尤其是在不完美的视觉条件下),其鲁棒性如何。在本工作中,我们基于近期最先进的VLA模型进行了系统性研究,发现当引入训练数据中不存在的视觉干扰时,模型性能显著下降。为缓解此问题,我们提出了一种基于信息理论的轻量级适配器模块,称为信息瓶颈适配器(IB-Adapter),它能够有选择地从视觉输入中过滤潜在噪声。无需任何额外数据或增强策略,IB-Adapter在平均性能上持续提升基线30%,同时仅增加不到1000万个参数,展现了显著的效率与有效性。此外,即使使用小14倍的主干网络(0.5B参数)且未在Open X-Embodiment数据集上预训练,我们的模型StableVLA也能实现与70亿参数规模的最先进VLA模型相媲美的鲁棒性。在可忽略的参数开销(<1000万)下,我们的方法在长时域任务上保持准确性,并在合成和物理视觉损坏条件下均超越OpenPi。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - StableVLA:无需额外数据实现鲁棒的视觉-语言-动作模型

来源:https://huggingface.co/papers/2605.18287
发布于 5 月 18 日

·

提交者:https://huggingface.co/yfdeng10

yfdeng (https://huggingface.co/yfdeng10) 于 5 月 19 日

摘要

视觉-语言-动作模型在面对未见过的视觉干扰时性能会下降,但一个轻量级的基于信息论的适配器模块能以极小的参数开销显著提升鲁棒性。

将训练数据集中所有可能的干扰都涵盖在内是不可行的。这引出了一个关键问题:视觉-语言-动作(VLA)模型在遇到未见过的真实世界视觉干扰(特别是在不完美的视觉条件下)时的鲁棒性如何。在这项工作中,我们基于近期最先进的 VLA 模型进行了系统性研究,发现当引入训练数据中未出现的视觉干扰时,模型性能会显著下降。为缓解这一问题,我们提出了一个基于信息论的轻量级适配器模块,称为信息瓶颈适配器(IB-Adapter),它能有选择地过滤来自视觉输入的潜在噪声。无需任何额外数据或数据增强策略,IB-Adapter 就能使基线模型平均提升 30%,同时仅增加不到 1000 万个参数,展现出显著的效率和有效性。此外,即使使用小 14 倍的骨干网络(5 亿参数)且未在 Open X-Embodiment 数据集上进行预训练,我们的模型 StableVLA 也能达到与 70 亿参数规模的最先进 VLA 相竞争的鲁棒性。在可忽略的参数开销(<1000 万)下,我们的方法能在长程任务上保持准确率,并且在合成和物理视觉损坏条件下均超越了 OpenPi。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18287) 查看 PDF (https://arxiv.org/pdf/2605.18287) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18287)

在您的代理中获取此论文:

hf papers read 2605\.18287

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0 个

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.18287 即可从此页面链接。

引用此论文的数据集 0 个

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.18287 即可从此页面链接。

引用此论文的 Spaces 0 个

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.18287 即可从此页面链接。

包含此论文的收藏集 0 个

无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中即可从此页面链接。

相似文章

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers

IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。