semantic-planning

#semantic-planning

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

HiVLA 提出了一种分层视觉-语言-动作框架，通过使用扩散变换器动作专家将语义规划与运动控制解耦，从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家，在长周期任务和细粒度操作方面尤其优于端到端基线。

0 人收藏 0 人点赞