标签
PolicyTrim是一种基于强化学习的后训练框架,能将视觉-语言-动作模型的动作块利用率提升3倍,并将物理执行步骤减少51.4%,实现高达5.83倍的部署加速。
EventVLA 提出了一种稀疏视觉证据记忆框架用于长时域机器人操作,相较于最先进的记忆增强型VLA,平均成功率提升了40%。
Agibot已在Hyperscale Michigan校区部署了130台人形机器人进行训练,在其开发中超越了Vision Language Action模型。
本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。
GeneralVLA-2 引入了 GeoFuse-MV3D 以改进 3D 重建,以及一个受控的 KnowledgeBank 以在机器人操作任务中实现更好的记忆管理,在多个基准测试上取得了性能提升。
ACE-EGO-0是一个统一的视觉-语言-动作预训练框架,利用第一人称人类视频和机器人轨迹,通过可靠性感知训练目标,在具身AI基准上达到了最先进水平。
本文提出分层优势加权行为克隆(HABC),用于利用具有稀疏二进制回合结果的在线强化学习微调视觉-语言-动作(VLA)策略。HABC通过自适应评价器头和干预感知的信用分配将可行性和效率目标分离,显著提高了接触密集型双手操作任务的成功率。
LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。
本文介绍了一种检索增强的视觉-语言-动作策略,通过使用预训练模型和索引演示,消除了每个任务的微调,实现了高效的跨本体泛化和测试时的任务适应。
提出MotionVLA,一种用于人形运动生成的视觉-语言-动作模型,采用双流频率分词器分别编码姿态和物理动态,实现了更高的多样性和一致性。
HyVLA-0.5 是一个端到端机器人学习系统,整合了数据收集、模型设计、预训练、微调和强化学习,用于真实世界部署。
LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型,采用两阶段训练方法,结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距,它实现了最先进的成功率。
研究人员提出APT,一种两阶段训练方法,先在视觉-动作对上预训练动作专家,再整合语言条件,显著提升视觉-语言-动作策略在分布外指令上的泛化能力。
World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型,在操作任务上实现了最先进的零样本性能。
TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。
本文立场论文认为,推进机器人智能需要将非结构化的行为数据通过专门的接口进行整合,用于标注、具身映射、世界建模和奖励推断,而不是仅仅依赖扩展视觉-语言-动作(VLA)模型和世界模型。
AffordanceVLA引入了一个统一框架,利用结构化可供性预测作为中间表示,结合视觉-语言模型和混合Transformer架构,以改进机器人操作中的感知-动作映射。
AURA-Mem 提出了一种恒定大小的机器人策略记忆,通过一个学习后的门控机制,仅在当前观测会改变下一步动作时才进行写入。它能够以显著更少的写入次数和恒定的显存消耗匹配基准精度,解决了长周期机器人任务中的内存瓶颈问题。
提出CTRL-STEER,一种闭环框架,通过时变控制信号对视觉-语言-动作模型进行自适应引导,在无需重新训练的情况下,实现了概念调节与任务成功率之间的更好权衡。
NVIDIA 宣布推出 Alpamayo 2 Super,这是一款面向 L4 级自动驾驶出租车的 32B 开源推理模型,具备 360 度感知、元动作等功能,并提供包括 AlpaGym 仿真和 OmniDreams 场景生成在内的全套技术栈。