DynaFLIP: 通过三模态动力学引导的表征重新思考机器人感知
摘要
DynaFLIP 是一个动力学感知的多模态预训练框架,将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习,在分布外场景中取得了显著提升。
查看缓存全文
缓存时间: 2026/05/29 19:03
论文页面 - DynaFLIP:通过三模态动力学引导表示重新思考机器人感知
来源:https://huggingface.co/papers/2605.30350 发布于 5 月 28 日
·
由 https://huggingface.co/akhaliq 提交
AK (https://huggingface.co/akhaliq) 于 5 月 29 日
摘要
DynaFLIP 是一个动力学感知的多模态预训练框架,通过将运动理解融入视觉感知——借助图像-语言-3D 流三元组和几何正则化技术——来增强机器人操作能力。
机器人操作的关键依赖于能够保留场景中与动作相关方面的感知。然而,大多数机器人学习流程都建立在为静态识别或视觉-语言对齐预训练的视觉编码器之上,将运动理解留给下游策略。我们提出了 DynaFLIP,这是一个动力学感知的多模态预训练框架,将运动理解上推至感知层面。我们从异构的人类和机器人视频中构建了图像-语言-3D 流三元组,并利用这些三元组作为训练时的监督信号来塑造一个纯图像编码器。我们的核心思想是鼓励这三种模态在共享的超球面空间中占据一个小的单形体体积——单形体体积越小表示对齐越强。为了避免几何模糊性和朴素的体积最小化导致的平庸坍塌,我们将单形体体积最小化与余弦正则化器和对比学习目标相结合。我们的分析表明,DynaFLIP 聚焦于对操作至关重要的控制相关区域。由此产生的动力学感知表示可作为可重用的视觉主干,并在各种下游策略(包括 VLA)中持续优于基线。我们在多种仿真和真实世界场景中验证了这一点,在分布外场景下性能提升高达 +22.5%。我们的结果表明,当视觉表示被训练成不仅编码“存在什么”,而且编码“世界如何随动作变化”时,机器人的泛化能力会得到提升。
查看 arXiv 页面 (https://arxiv.org/abs/2605.30350) 查看 PDF (https://arxiv.org/pdf/2605.30350) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30350)
在您的代理中获取此论文:
hf papers read 2605\.30350
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。
包含此论文的收藏1
相似文章
D4RT:教会 AI 以四维视角观察世界
DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。
Co-GLANCE:面向异构机器人团队的不确定性感知主动感知系统
Co-GLANCE 是一种用于异构机器人团队的实时机载感知与决策系统,它将视觉语言模型的能力蒸馏为高效模型,并利用保形预测与选择性弃权来量化并解决感知不确定性,相比基于云端的视觉语言模型基线高出 25-36%,同时延迟降低了 350 倍。
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。
ActiveMimic: 基于主动感知的自我中心视频预训练
ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。
@AlexiGlad: 人工智能的进步源于采用更弱假设的方法,这使其能够更好地扩展。但表示…
引入了视觉时域差分(TDV),这是一种全新的表示学习范式,仅依赖于因果关系,无需数据增强、掩码或裁剪,并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。