标签
介绍Qwen-RobotManip,一个用于机器人操控的视觉-语言-动作基础模型,通过在表征、运动和行为维度上的统一对齐实现泛化,从而能够在多样化的数据源上进行大规模训练。它在多个分布外基准测试中优于先前的最先进模型,并展现出涌现能力,如零样本指令跟随和跨本体迁移。