AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
摘要
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
查看缓存全文
缓存时间: 2026/05/19 18:33
论文页面 - AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
来源:https://huggingface.co/papers/2603.10126
摘要
一个自回归动作专家能够根据视觉-语言前缀生成连续的动作序列,通过长期记忆维持上下文感知的机器人策略训练,从而提升轨迹平滑度和任务成功率。
我们提出了一种独立的自回归(AR)动作专家,它能够以连续因果序列的方式生成动作,同时以可刷新的视觉-语言前缀为条件。与现有的视觉-语言-动作(VLA)模型和扩散策略(它们会在每次新观测时重置时间上下文并以反应式方式预测动作)不同,我们的动作专家通过长期记忆维护自身的历史,具有天然的上下文感知能力。这种结构解决了快速控制与慢速推理之间的频率不匹配问题,实现了运动句法的独立高效预训练以及与重型感知骨干的模块化集成,自然确保了跨帧的时空一致动作生成。为了同步这些异步的混合V-L-A模态,我们利用了一种重锚定机制,该机制在训练和推理过程中从数学上解释了感知滞后。在模拟和真实机器人操作任务上的实验表明,所提方法能够有效替代传统的基于块的动作头,适用于专才和通才策略。AR-VLA展现出优越的历史感知能力,并且动作轨迹显著更加平滑,同时维持或超越了最先进反应式VLA的任务成功率。总体而言,我们的工作引入了一种可扩展的、上下文感知的动作生成方案,为训练高效机器人策略提供了稳健的结构基础。代码和视频可在 https://arvla.insait.ai 获取
查看 arXiv 页面 (https://arxiv.org/abs/2603.10126) 查看 PDF (https://arxiv.org/pdf/2603.10126) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2603.10126)
在您的代理中获取这篇论文:
hf papers read 2603.10126
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2603.10126 以从此页面链接它。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2603.10126 以从此页面链接它。
引用此论文的Spaces0
没有Space链接此论文
在 Space README.md 中引用 arxiv.org/abs/2603.10126 以从此页面链接它。
包含此论文的收藏集0
没有收藏集包含此论文
将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架
D-VLA 提出了一种高并发分布式异步强化学习框架,用于视觉-语言-动作模型,采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。
IntentVLA: 针对混叠机器人操作的短期意图建模
IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。
StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型
本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。