HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers 2026/04/15 00:00 论文

摘要

HiVLA 提出了一种分层视觉-语言-动作框架，通过使用扩散变换器动作专家将语义规划与运动控制解耦，从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家，在长周期任务和细粒度操作方面尤其优于端到端基线。

虽然端到端的视觉-语言-动作（VLA）模型为机器人操作提供了一种有前景的范式，但在狭窄控制数据上微调它们往往会损害从其基础视觉-语言模型（VLM）继承的深层推理能力。为了解决这一基本权衡，我们提出了HiVLA，一种以视觉接地为中心的分层框架，明确将高层语义规划与低层运动控制解耦。在高层部分，VLM规划器首先执行任务分解和视觉接地，生成结构化规划，包括子任务指令和精确的目标边界框。然后，为了将该规划转化为物理动作，我们在低层部分引入了一种配备新颖级联交叉注意力机制的流匹配扩散变换器（DiT）动作专家。这种设计顺序融合了全局上下文、高分辨率以物体为中心的裁剪和技能语义，使DiT能够专注于稳健的执行。我们的解耦架构保留了VLM的零样本推理能力，同时允许两个组件独立改进。在仿真和现实世界中的大量实验表明，HiVLA显著优于最先进的端到端基线，尤其在长周期技能组合和杂乱场景中小物体的细粒度操作方面表现出色。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - HiVLA：一种以视觉为中心的层次化具身操作框架

来源：https://huggingface.co/papers/2604.14125
作者：
，
，
，
，
，
，
，
，
，

摘要

HiVLA 提出了一种层次化的视觉-语言-动作框架，通过使用带有级联交叉注意力机制的扩散变换器动作专家，将语义规划与运动控制解耦，从而改进了机器人操作。

尽管端到端的视觉-语言-动作（VLA）模型为机器人操作提供了一种有前景的范式，但在狭窄的控制数据上微调这些模型往往会损害其源自基础视觉-语言模型（VLM）的深层推理能力。为了解决这一根本性的权衡问题，我们提出了 HiVLA，一种以视觉为中心的层次化框架，显式地将高层语义规划与底层运动控制解耦。在高层部分，VLM 规划器首先执行任务分解和视觉定位，生成结构化计划，包括子任务指令和精确的目标边界框。然后，为了将这一计划转化为物理动作，我们在底层部分引入了一个流匹配扩散变换器（DiT）动作专家，并配备了一种新颖的级联交叉注意力机制。该设计顺序融合了全局上下文、高分辨率以对象为中心的裁剪图像以及技能语义，使 DiT 能够专注于鲁棒的执行。我们的解耦架构保留了 VLM 的零样本推理能力，同时允许两个组件独立改进。在仿真和真实世界中的大量实验表明，HiVLA 显著优于最先进的端到端基线，特别是在长时域技能组合和杂乱场景中小物体的精细操作方面表现卓越。

查看 arXiv 页面（https://arxiv.org/abs/2604.14125）
查看 PDF（https://arxiv.org/pdf/2604.14125）
项目页面（https://tianshuoy.github.io/HiVLA-page/）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.14125）

在您的智能助手中获取此论文：

hf papers read 2604\.14125

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2604.14125，以在此页面上链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.14125，以在此页面上链接。

引用此论文的 Space 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2604.14125，以在此页面上链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以在此页面上链接。

相似文章

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

HiVLA: 一种以视觉接地为中心的分层具身操作系统

论文页面 - HiVLA：一种以视觉为中心的层次化具身操作框架

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 0

相似文章

OneVL：基于视觉语言解释的单步隐式推理与规划

规划复杂视觉任务的更优方法

刚刚开源 FastVLA

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

DeVI：基于物理的灵巧人-物交互，通过合成视频模仿实现

提交意见反馈