HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers 论文

摘要

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

虽然端到端的视觉-语言-动作(VLA)模型为机器人操作提供了一种有前景的范式,但在狭窄控制数据上微调它们往往会损害从其基础视觉-语言模型(VLM)继承的深层推理能力。为了解决这一基本权衡,我们提出了HiVLA,一种以视觉接地为中心的分层框架,明确将高层语义规划与低层运动控制解耦。在高层部分,VLM规划器首先执行任务分解和视觉接地,生成结构化规划,包括子任务指令和精确的目标边界框。然后,为了将该规划转化为物理动作,我们在低层部分引入了一种配备新颖级联交叉注意力机制的流匹配扩散变换器(DiT)动作专家。这种设计顺序融合了全局上下文、高分辨率以物体为中心的裁剪和技能语义,使DiT能够专注于稳健的执行。我们的解耦架构保留了VLM的零样本推理能力,同时允许两个组件独立改进。在仿真和现实世界中的大量实验表明,HiVLA显著优于最先进的端到端基线,尤其在长周期技能组合和杂乱场景中小物体的细粒度操作方面表现出色。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - HiVLA:一种以视觉为中心的层次化具身操作框架

来源:https://huggingface.co/papers/2604.14125
作者:








摘要

HiVLA 提出了一种层次化的视觉-语言-动作框架,通过使用带有级联交叉注意力机制的扩散变换器动作专家,将语义规划与运动控制解耦,从而改进了机器人操作。

尽管端到端的视觉-语言-动作(VLA)模型为机器人操作提供了一种有前景的范式,但在狭窄的控制数据上微调这些模型往往会损害其源自基础视觉-语言模型(VLM)的深层推理能力。为了解决这一根本性的权衡问题,我们提出了 HiVLA,一种以视觉为中心的层次化框架,显式地将高层语义规划与底层运动控制解耦。在高层部分,VLM 规划器首先执行任务分解和视觉定位,生成结构化计划,包括子任务指令和精确的目标边界框。然后,为了将这一计划转化为物理动作,我们在底层部分引入了一个流匹配扩散变换器(DiT)动作专家,并配备了一种新颖的级联交叉注意力机制。该设计顺序融合了全局上下文、高分辨率以对象为中心的裁剪图像以及技能语义,使 DiT 能够专注于鲁棒的执行。我们的解耦架构保留了 VLM 的零样本推理能力,同时允许两个组件独立改进。在仿真和真实世界中的大量实验表明,HiVLA 显著优于最先进的端到端基线,特别是在长时域技能组合和杂乱场景中小物体的精细操作方面表现卓越。

查看 arXiv 页面(https://arxiv.org/abs/2604.14125)
查看 PDF(https://arxiv.org/pdf/2604.14125)
项目页面(https://tianshuoy.github.io/HiVLA-page/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.14125)

在您的智能助手中获取此论文:

hf papers read 2604\.14125

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。

引用此论文的 Space 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以在此页面上链接。

相似文章

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v

规划复杂视觉任务的更优方法

MIT News — Artificial Intelligence

MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。

刚刚开源 FastVLA

Reddit r/LocalLLaMA

FastVLA,一款开源视觉-语言-动作模型,现可在 L4 GPU 上实现 5 Hz 机器人控制。