标签
Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型,用于具身智能,能够从当前观测中预测未来视频,涵盖机器人、自动驾驶、导航等多个领域,并应用于合成数据生成、策略评估和规划。
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
本文介绍了一种将幺正算子映射到大语言模型潜在空间的方法,实现了量子电路合成以及语言条件化的门约束指定,并在Clifford+T电路合成上取得了与现有方法相竞争的结果。
AFUN 提出了一种可供性基础模型,该模型从 RGB-D 观测和语言描述中预测功能掩码和 3D 运动曲线,从而能够在多种环境中实现泛化的机器人操作。该模型在多个基准测试上优于基线方法,并且无需微调即可部署到实际任务中。