HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers 论文

摘要

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

虽然端到端的视觉-语言-动作(VLA)模型为机器人操作提供了一种有前景的范式,但在狭窄控制数据上微调它们往往会损害从其基础视觉-语言模型(VLM)继承的深层推理能力。为了解决这一基本权衡,我们提出了HiVLA,一种以视觉接地为中心的分层框架,明确将高层语义规划与低层运动控制解耦。在高层部分,VLM规划器首先执行任务分解和视觉接地,生成结构化规划,包括子任务指令和精确的目标边界框。然后,为了将该规划转化为物理动作,我们在低层部分引入了一种配备新颖级联交叉注意力机制的流匹配扩散变换器(DiT)动作专家。这种设计顺序融合了全局上下文、高分辨率以物体为中心的裁剪和技能语义,使DiT能够专注于稳健的执行。我们的解耦架构保留了VLM的零样本推理能力,同时允许两个组件独立改进。在仿真和现实世界中的大量实验表明,HiVLA显著优于最先进的端到端基线,尤其在长周期技能组合和杂乱场景中小物体的细粒度操作方面表现出色。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - HiVLA:一种以视觉为中心的层次化具身操作框架

来源:https://huggingface.co/papers/2604.14125
作者:








摘要

HiVLA 提出了一种层次化的视觉-语言-动作框架,通过使用带有级联交叉注意力机制的扩散变换器动作专家,将语义规划与运动控制解耦,从而改进了机器人操作。

尽管端到端的视觉-语言-动作(VLA)模型为机器人操作提供了一种有前景的范式,但在狭窄的控制数据上微调这些模型往往会损害其源自基础视觉-语言模型(VLM)的深层推理能力。为了解决这一根本性的权衡问题,我们提出了 HiVLA,一种以视觉为中心的层次化框架,显式地将高层语义规划与底层运动控制解耦。在高层部分,VLM 规划器首先执行任务分解和视觉定位,生成结构化计划,包括子任务指令和精确的目标边界框。然后,为了将这一计划转化为物理动作,我们在底层部分引入了一个流匹配扩散变换器(DiT)动作专家,并配备了一种新颖的级联交叉注意力机制。该设计顺序融合了全局上下文、高分辨率以对象为中心的裁剪图像以及技能语义,使 DiT 能够专注于鲁棒的执行。我们的解耦架构保留了 VLM 的零样本推理能力,同时允许两个组件独立改进。在仿真和真实世界中的大量实验表明,HiVLA 显著优于最先进的端到端基线,特别是在长时域技能组合和杂乱场景中小物体的精细操作方面表现卓越。

查看 arXiv 页面(https://arxiv.org/abs/2604.14125)
查看 PDF(https://arxiv.org/pdf/2604.14125)
项目页面(https://tianshuoy.github.io/HiVLA-page/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.14125)

在您的智能助手中获取此论文:

hf papers read 2604\.14125

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。

引用此论文的 Space 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以在此页面上链接。

相似文章

IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers

IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

LabVLA:在科学实验室中落地视觉-语言-动作模型

Hugging Face Daily Papers

LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型,采用两阶段训练方法,结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距,它实现了最先进的成功率。