HiVLA: 一种以视觉接地为中心的分层具身操作系统
摘要
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - HiVLA:一种以视觉为中心的层次化具身操作框架
来源:https://huggingface.co/papers/2604.14125
作者:
,
,
,
,
,
,
,
,
,
摘要
HiVLA 提出了一种层次化的视觉-语言-动作框架,通过使用带有级联交叉注意力机制的扩散变换器动作专家,将语义规划与运动控制解耦,从而改进了机器人操作。
尽管端到端的视觉-语言-动作(VLA)模型为机器人操作提供了一种有前景的范式,但在狭窄的控制数据上微调这些模型往往会损害其源自基础视觉-语言模型(VLM)的深层推理能力。为了解决这一根本性的权衡问题,我们提出了 HiVLA,一种以视觉为中心的层次化框架,显式地将高层语义规划与底层运动控制解耦。在高层部分,VLM 规划器首先执行任务分解和视觉定位,生成结构化计划,包括子任务指令和精确的目标边界框。然后,为了将这一计划转化为物理动作,我们在底层部分引入了一个流匹配扩散变换器(DiT)动作专家,并配备了一种新颖的级联交叉注意力机制。该设计顺序融合了全局上下文、高分辨率以对象为中心的裁剪图像以及技能语义,使 DiT 能够专注于鲁棒的执行。我们的解耦架构保留了 VLM 的零样本推理能力,同时允许两个组件独立改进。在仿真和真实世界中的大量实验表明,HiVLA 显著优于最先进的端到端基线,特别是在长时域技能组合和杂乱场景中小物体的精细操作方面表现卓越。
查看 arXiv 页面(https://arxiv.org/abs/2604.14125)
查看 PDF(https://arxiv.org/pdf/2604.14125)
项目页面(https://tianshuoy.github.io/HiVLA-page/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.14125)
在您的智能助手中获取此论文:
hf papers read 2604\.14125
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。
引用此论文的 Space 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2604.14125,以在此页面上链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以在此页面上链接。
相似文章
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v
规划复杂视觉任务的更优方法
MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。
刚刚开源 FastVLA
FastVLA,一款开源视觉-语言-动作模型,现可在 L4 GPU 上实现 5 Hz 机器人控制。
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。