AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家

Hugging Face Daily Papers 论文

摘要

提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。

我们提出了一种独立的自回归(AR)动作专家,它通过可刷新的视觉-语言前缀作为条件,生成连续的因果序列动作。与现有的视觉-语言-动作(VLA)模型和扩散策略不同,后者随着每次新观测重置时间上下文并以反应方式预测动作,我们的动作专家通过长期记忆维护自身历史,具有固有的上下文感知能力。这种结构解决了快速控制与慢速推理之间的频率不匹配问题,实现了运动学语法的独立高效预训练以及与重型感知骨干的模块化集成,自然地确保了跨帧的时空一致动作生成。为了同步这些异步的混合V-L-A模态,我们利用了一种重新锚定机制,该机制在训练和推理过程中从数学上考虑了感知滞后。在模拟和真实机器人操作任务上的实验表明,所提出的方法可以有效替代传统基于块的动作头,适用于专用和通用策略。AR-VLA表现出卓越的历史感知能力和更平滑的动作轨迹,同时保持或超越了最先进反应式VLA的任务成功率。总体而言,我们的工作引入了一种可扩展的、上下文感知的动作生成方案,为训练有效的机器人策略提供了稳健的结构基础。代码和视频见 https://arvla.insait.ai
查看原文
查看缓存全文

缓存时间: 2026/05/19 18:33

论文页面 - AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家

来源:https://huggingface.co/papers/2603.10126

摘要

一个自回归动作专家能够根据视觉-语言前缀生成连续的动作序列,通过长期记忆维持上下文感知的机器人策略训练,从而提升轨迹平滑度和任务成功率。

我们提出了一种独立的自回归(AR)动作专家,它能够以连续因果序列的方式生成动作,同时以可刷新的视觉-语言前缀为条件。与现有的视觉-语言-动作(VLA)模型和扩散策略(它们会在每次新观测时重置时间上下文并以反应式方式预测动作)不同,我们的动作专家通过长期记忆维护自身的历史,具有天然的上下文感知能力。这种结构解决了快速控制与慢速推理之间的频率不匹配问题,实现了运动句法的独立高效预训练以及与重型感知骨干的模块化集成,自然确保了跨帧的时空一致动作生成。为了同步这些异步的混合V-L-A模态,我们利用了一种重锚定机制,该机制在训练和推理过程中从数学上解释了感知滞后。在模拟和真实机器人操作任务上的实验表明,所提方法能够有效替代传统的基于块的动作头,适用于专才和通才策略。AR-VLA展现出优越的历史感知能力,并且动作轨迹显著更加平滑,同时维持或超越了最先进反应式VLA的任务成功率。总体而言,我们的工作引入了一种可扩展的、上下文感知的动作生成方案,为训练高效机器人策略提供了稳健的结构基础。代码和视频可在 https://arvla.insait.ai 获取

查看 arXiv 页面 (https://arxiv.org/abs/2603.10126) 查看 PDF (https://arxiv.org/pdf/2603.10126) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2603.10126)

在您的代理中获取这篇论文:

hf papers read 2603.10126

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2603.10126 以从此页面链接它。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2603.10126 以从此页面链接它。

引用此论文的Spaces0

没有Space链接此论文

在 Space README.md 中引用 arxiv.org/abs/2603.10126 以从此页面链接它。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers

IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。