embodied-control

#embodied-control

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

视觉思考-视觉-语言-行动策略（VisualThink-VLA）引入了一种用于视觉-语言-行动策略的视觉中间推理框架，该框架保留了空间精度，并相比基于文本的推理显著降低了延迟，在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

0 人收藏 0 人点赞

#embodied-control

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

PhysBrain 1.0 是一份技术报告，提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法，在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。

0 人收藏 0 人点赞