DynaFLIP: 通过三模态动力学引导的表征重新思考机器人感知

Hugging Face Daily Papers 2026/05/28 00:00 论文

robotics perception multimodal pre-training representation-learning manipulation dynamics-aware

摘要

DynaFLIP 是一个动力学感知的多模态预训练框架，将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习，在分布外场景中取得了显著提升。

机器人操作关键依赖于保留场景动作相关方面的感知。然而，大多数机器人学习流程建立在为静态识别或视觉-语言对齐而预训练的视觉编码器之上，将运动理解留给下游策略。我们引入了 DynaFLIP，一个动力学感知的多模态预训练框架，将运动理解推向上游感知。我们从异构的人类和机器人视频中构建图像-语言-3D流三元组，并利用这些三元组作为训练时的监督来塑造仅图像的编码器。我们的关键思想是鼓励三种模态在共享的超球面空间中跨越一个小的单纯形体积——较小的单纯形体积表示更强的对齐。为了避免几何模糊和朴素体积最小化的平凡崩塌，我们将单纯形体积最小化与余弦正则化器和对比目标相结合。我们的分析表明，DynaFLIP 关注与操作控制相关的关键区域。由此产生的动力学感知表征可作为可复用的视觉主干，并在各种下游策略（包括 VLA）中持续优于基线。我们在多样化的仿真和真实世界设置中验证了这一点，在分布外场景下取得了高达 +22.5% 的提升。我们的结果表明，当视觉表征被训练为不仅编码存在什么，而且编码世界在动作下如何变化时，机器人的泛化能力得到提升。

查看原文

查看缓存全文

缓存时间: 2026/05/29 19:03

论文页面 - DynaFLIP：通过三模态动力学引导表示重新思考机器人感知

来源：https://huggingface.co/papers/2605.30350 发布于 5 月 28 日

由 https://huggingface.co/akhaliq 提交

AK (https://huggingface.co/akhaliq) 于 5 月 29 日

摘要

DynaFLIP 是一个动力学感知的多模态预训练框架，通过将运动理解融入视觉感知——借助图像-语言-3D 流三元组和几何正则化技术——来增强机器人操作能力。

机器人操作的关键依赖于能够保留场景中与动作相关方面的感知。然而，大多数机器人学习流程都建立在为静态识别或视觉-语言对齐预训练的视觉编码器之上，将运动理解留给下游策略。我们提出了 DynaFLIP，这是一个动力学感知的多模态预训练框架，将运动理解上推至感知层面。我们从异构的人类和机器人视频中构建了图像-语言-3D 流三元组，并利用这些三元组作为训练时的监督信号来塑造一个纯图像编码器。我们的核心思想是鼓励这三种模态在共享的超球面空间中占据一个小的单形体体积——单形体体积越小表示对齐越强。为了避免几何模糊性和朴素的体积最小化导致的平庸坍塌，我们将单形体体积最小化与余弦正则化器和对比学习目标相结合。我们的分析表明，DynaFLIP 聚焦于对操作至关重要的控制相关区域。由此产生的动力学感知表示可作为可重用的视觉主干，并在各种下游策略（包括 VLA）中持续优于基线。我们在多种仿真和真实世界场景中验证了这一点，在分布外场景下性能提升高达 +22.5%。我们的结果表明，当视觉表示被训练成不仅编码“存在什么”，而且编码“世界如何随动作变化”时，机器人的泛化能力会得到提升。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30350) 查看 PDF (https://arxiv.org/pdf/2605.30350) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30350)

在您的代理中获取此论文：

hf papers read 2605\.30350

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.30350 以从此页面链接。

DynaFLIP: 通过三模态动力学引导的表征重新思考机器人感知

论文页面 - DynaFLIP：通过三模态动力学引导表示重新思考机器人感知

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏1

相似文章

D4RT：教会 AI 以四维视角观察世界

Co-GLANCE：面向异构机器人团队的不确定性感知主动感知系统

DeVI：基于物理的灵巧人-物交互，通过合成视频模仿实现

ActiveMimic: 基于主动感知的自我中心视频预训练

@AlexiGlad: 人工智能的进步源于采用更弱假设的方法，这使其能够更好地扩展。但表示…

提交意见反馈