semantic-planning

#semantic-planning

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Hugging Face Daily Papers ↗ · 2026-04-15 Cached

HiVLA introduces a hierarchical vision-language-action framework that decouples semantic planning from motor control using a diffusion transformer action expert for improved robotic manipulation. The system combines a VLM planner for task decomposition and visual grounding with a specialized DiT action expert using cascaded cross-attention, outperforming end-to-end baselines particularly in long-horizon tasks and fine-grained manipulation.

0 favorites 0 likes

semantic-planning

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Submit Feedback