标签
GEM 引入了一种生成式监督方法,通过利用生成模型进行训练来提升具身智能。
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。
Fei-Fei Li警告,AI过度关注语言模型,强调世界是物理的、视觉的、空间的,并且大部分经济依赖于具身智能。