DynaFLIP: 通过三模态动力学引导的表征重新思考机器人感知

Hugging Face Daily Papers 论文

摘要

DynaFLIP 是一个动力学感知的多模态预训练框架,将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习,在分布外场景中取得了显著提升。

机器人操作关键依赖于保留场景动作相关方面的感知。然而,大多数机器人学习流程建立在为静态识别或视觉-语言对齐而预训练的视觉编码器之上,将运动理解留给下游策略。我们引入了 DynaFLIP,一个动力学感知的多模态预训练框架,将运动理解推向上游感知。我们从异构的人类和机器人视频中构建图像-语言-3D流三元组,并利用这些三元组作为训练时的监督来塑造仅图像的编码器。我们的关键思想是鼓励三种模态在共享的超球面空间中跨越一个小的单纯形体积——较小的单纯形体积表示更强的对齐。为了避免几何模糊和朴素体积最小化的平凡崩塌,我们将单纯形体积最小化与余弦正则化器和对比目标相结合。我们的分析表明,DynaFLIP 关注与操作控制相关的关键区域。由此产生的动力学感知表征可作为可复用的视觉主干,并在各种下游策略(包括 VLA)中持续优于基线。我们在多样化的仿真和真实世界设置中验证了这一点,在分布外场景下取得了高达 +22.5% 的提升。我们的结果表明,当视觉表征被训练为不仅编码存在什么,而且编码世界在动作下如何变化时,机器人的泛化能力得到提升。
查看原文
查看缓存全文

缓存时间: 2026/05/29 19:03

论文页面 - DynaFLIP:通过三模态动力学引导表示重新思考机器人感知

来源:https://huggingface.co/papers/2605.30350 发布于 5 月 28 日

·

由 https://huggingface.co/akhaliq 提交

AK (https://huggingface.co/akhaliq) 于 5 月 29 日

摘要

DynaFLIP 是一个动力学感知的多模态预训练框架,通过将运动理解融入视觉感知——借助图像-语言-3D 流三元组和几何正则化技术——来增强机器人操作能力。

机器人操作的关键依赖于能够保留场景中与动作相关方面的感知。然而,大多数机器人学习流程都建立在为静态识别或视觉-语言对齐预训练的视觉编码器之上,将运动理解留给下游策略。我们提出了 DynaFLIP,这是一个动力学感知的多模态预训练框架,将运动理解上推至感知层面。我们从异构的人类和机器人视频中构建了图像-语言-3D 流三元组,并利用这些三元组作为训练时的监督信号来塑造一个纯图像编码器。我们的核心思想是鼓励这三种模态在共享的超球面空间中占据一个小的单形体体积——单形体体积越小表示对齐越强。为了避免几何模糊性和朴素的体积最小化导致的平庸坍塌,我们将单形体体积最小化与余弦正则化器和对比学习目标相结合。我们的分析表明,DynaFLIP 聚焦于对操作至关重要的控制相关区域。由此产生的动力学感知表示可作为可重用的视觉主干,并在各种下游策略(包括 VLA)中持续优于基线。我们在多种仿真和真实世界场景中验证了这一点,在分布外场景下性能提升高达 +22.5%。我们的结果表明,当视觉表示被训练成不仅编码“存在什么”,而且编码“世界如何随动作变化”时,机器人的泛化能力会得到提升。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30350) 查看 PDF (https://arxiv.org/pdf/2605.30350) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30350)

在您的代理中获取此论文:

hf papers read 2605\.30350

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。

包含此论文的收藏1

相似文章

D4RT:教会 AI 以四维视角观察世界

Google DeepMind Blog

DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。

Co-GLANCE:面向异构机器人团队的不确定性感知主动感知系统

arXiv cs.LG

Co-GLANCE 是一种用于异构机器人团队的实时机载感知与决策系统,它将视觉语言模型的能力蒸馏为高效模型,并利用保形预测与选择性弃权来量化并解决感知不确定性,相比基于云端的视觉语言模型基线高出 25-36%,同时延迟降低了 350 倍。

ActiveMimic: 基于主动感知的自我中心视频预训练

Hugging Face Daily Papers

ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。