标签
AEGIS 使用激活探针早期预警,在长时域机器人操作中故障累积之前切换到更强的策略,恢复的故障次数是预算匹配升级策略的两倍。
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。
TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。
Dream.exe 提出了一种评估框架,利用机器人操控任务来评估视频生成模型对物理现实的理解,结果发现视觉质量并不能预测可执行运动的准确性。
AFUN 提出了一种可供性基础模型,该模型从 RGB-D 观测和语言描述中预测功能掩码和 3D 运动曲线,从而能够在多种环境中实现泛化的机器人操作。该模型在多个基准测试上优于基线方法,并且无需微调即可部署到实际任务中。
RoboSemanticBench 是一个基准测试,用于诊断视觉-语言-动作模型在动作预测中的语义基础,揭示机器人虽然能够抓取物体,但无法根据指令语义选择语义上正确的目标。
IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。
RoboEvolve是一个框架,它协同进化VLM规划器和VGM模拟器用于机器人操作,仅用500张无标签种子图像就实现了数据效率以及鲁棒的持续学习。
Google DeepMind 推出 Gemini Robotics On-Device,这是一个高效的 VLA 模型,可以在机器人设备上本地运行,实现低延迟操作和离线功能,同时保持强大的灵巧操控能力和任务泛化能力。该模型可以通过仅 50-100 个演示进行微调,并附带供开发者使用的 SDK。
# 后见之明经验回放 来源:[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要 处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术,它允许从稀疏二元奖励中进行样本高效学习,因此避免了复杂的奖励工程设计的需要。它可以与任意组合