StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型
摘要
本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。
查看缓存全文
缓存时间: 2026/05/19 06:30
论文页面 - StableVLA:无需额外数据实现鲁棒的视觉-语言-动作模型
来源:https://huggingface.co/papers/2605.18287
发布于 5 月 18 日
·
提交者:https://huggingface.co/yfdeng10
yfdeng (https://huggingface.co/yfdeng10) 于 5 月 19 日
摘要
视觉-语言-动作模型在面对未见过的视觉干扰时性能会下降,但一个轻量级的基于信息论的适配器模块能以极小的参数开销显著提升鲁棒性。
将训练数据集中所有可能的干扰都涵盖在内是不可行的。这引出了一个关键问题:视觉-语言-动作(VLA)模型在遇到未见过的真实世界视觉干扰(特别是在不完美的视觉条件下)时的鲁棒性如何。在这项工作中,我们基于近期最先进的 VLA 模型进行了系统性研究,发现当引入训练数据中未出现的视觉干扰时,模型性能会显著下降。为缓解这一问题,我们提出了一个基于信息论的轻量级适配器模块,称为信息瓶颈适配器(IB-Adapter),它能有选择地过滤来自视觉输入的潜在噪声。无需任何额外数据或数据增强策略,IB-Adapter 就能使基线模型平均提升 30%,同时仅增加不到 1000 万个参数,展现出显著的效率和有效性。此外,即使使用小 14 倍的骨干网络(5 亿参数)且未在 Open X-Embodiment 数据集上进行预训练,我们的模型 StableVLA 也能达到与 70 亿参数规模的最先进 VLA 相竞争的鲁棒性。在可忽略的参数开销(<1000 万)下,我们的方法能在长程任务上保持准确率,并且在合成和物理视觉损坏条件下均超越了 OpenPi。
查看 arXiv 页面 (https://arxiv.org/abs/2605.18287) 查看 PDF (https://arxiv.org/pdf/2605.18287) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18287)
在您的代理中获取此论文:
hf papers read 2605\.18287
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0 个
无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.18287 即可从此页面链接。
引用此论文的数据集 0 个
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.18287 即可从此页面链接。
引用此论文的 Spaces 0 个
无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2605.18287 即可从此页面链接。
包含此论文的收藏集 0 个
无收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中即可从此页面链接。
相似文章
AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
克服动态盲视:面向VLA模型的免训练Pace-and-Path Correction
提出一种免训练推理时方法,用于VLA模型校正步调与路径动态,在动态环境中将成功率最高提升28.8%。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架
D-VLA 提出了一种高并发分布式异步强化学习框架,用于视觉-语言-动作模型,采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。
IntentVLA: 针对混叠机器人操作的短期意图建模
IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。