DragMesh-2:与铰接物体的物理合理灵巧手-物体交互
摘要
本文介绍了DragMesh-2和PICA方法,用于通过模拟中的接触感知强化学习来学习与铰接物体的物理合理灵巧手-物体交互,在没有明确触觉反馈的情况下实现有效操作。
查看缓存全文
缓存时间: 2026/06/20 14:28
论文页面 - DragMesh-2: 面向铰接物体的物理合理灵巧手物交互
来源:https://huggingface.co/papers/2606.15133
感谢提问,也感谢你分享博客。
在铰接物体操作中,目标关节无法直接驱动。门或抽屉的运动必须来自手与把手之间持续且有效的物理接触。因此,我们的目标不是让策略简单地重放手部轨迹,而是让它学会如何通过接触来驱动物体。
PICA 背后的直觉来源于人们实际拉动物体的方式。通常,我们先建立接触,然后根据最近的交互调整下一个动作。如果手仍在把手上,但门或抽屉移动不足,我们可能会加大拉力或改变拉力方向。如果接触丢失,我们首先恢复接触。PICA 试图编码这种短期交互反馈。
我们不使用显式的触觉感知或力反馈。相反,我们利用仿真中可用的手-把手接触信息。策略接收一段短的接触-交互历史,从而能够根据接触是否保持或丢失、以及近期接触是否产生了关节运动进展来调节其动作。在 PPO 奖励中,我们也加入了接触感知项,例如脱手惩罚、动作饱和惩罚和任务进展奖励。此外,我们在训练过程中引入阻尼和接触负载变化,使策略无法简单过拟合到单一名义动力学设定上。
因此,PICA 通过仿真导出的接触状态与历史、接触感知奖励塑造以及动力学随机化,将物理交互信号注入策略学习。这促使策略学习维持接触并通过接触驱动目标关节的行为,而不仅仅是匹配一个几何轨迹。
关于真实硬件泛化,我认为前景可期但尚未完全解决。PICA 的一个优势是不依赖显式的触觉或力反馈,因此更接近许多真实机器人手部设置。然而,真实硬件仍会引入摩擦与接触不匹配、执行器延迟、标定误差、背隙、柔顺性以及把手位姿估计噪声。此外,仿真中可用的干净接触状态与历史需要在真实系统中通过视觉、本体感觉、电机电流或其他信号间接估计。
因此,我更将 PICA 视为向硬件可行的接触感知学习迈出的一步,而非一个完整的仿真到现实解决方案 :)
相似文章
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。
零样本仿真到现实机器人学习:关于反应性抓取的灵巧操作研究
本文介绍了域随机化实例集(DRIS),一种同时表示多个随机化实例的方法,以改善灵巧操作的仿真到现实迁移。该方法在具有平板末端执行器且要求无真实世界微调的反应性抓取任务上展示了零样本迁移。
学习灵巧性
OpenAI 宣布推出 Dactyl,这是一个通过模拟和强化学习来学习机器人手灵巧性的系统,使用 LSTM 来在不同物理环境中泛化,并通过 Rapid PPO 实现来训练能够迁移到现实世界操纵任务的策略。
重新审视机器人操作中的关节部件感知
本文提出了几何基本结构(GPS),这是一种用于机器人操作中关节部件感知的新表示方法,支持高效的VR标注,无需微调即可达到73%的成功率。
Play2Perfect: 灵巧游戏预训练中影响精确组装的关键因素
Play2Perfect是一个强化学习框架,通过与多样化物体的游戏式交互学习通用操作技能,然后微调以执行精确组装任务,在紧密插入中实现了33倍的样本效率和零样本模拟到现实的迁移。