标签
提出MotionVLA,一种用于人形运动生成的视觉-语言-动作模型,采用双流频率分词器分别编码姿态和物理动态,实现了更高的多样性和一致性。
ARM提出了一种统一的基于离散语义标记化和强化学习优化的自回归框架,用于图像理解、生成与编辑,并展示了跨任务协同效果。