IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers 论文

摘要

IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。

机器人模仿数据通常是多模态的:相似的视觉-语言观测可能跟随不同的动作块,因为人类演示者具有不同的短期意图、任务阶段或近期上下文。现有的帧条件VLA策略仅根据当前观测和指令推断每个动作块,因此在部分可观察性下,它们可能在不同的重新规划步骤中重新采样不同的意图,导致块间冲突和不稳定的执行。我们引入了 IntentVLA,一种历史条件VLA框架,它将最近的视觉观测编码为紧凑的短期意图表示,并用它来条件化动作块的生成。我们还引入了 AliasBench,这是一个基于RoboTwin2的12任务模糊感知基准,具有匹配的训练数据和评估环境,隔离了短期观测混叠。在AliasBench、SimplerEnv、LIBERO和RoboCasa上,IntentVLA提高了展开稳定性,并超越了强VLA基线。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - IntentVLA: 面向歧义机器人操控的短时意图建模

来源:https://huggingface.co/papers/2605.14712 作者:

,

,

,

,

,

,

,

,

,

摘要

IntentVLA 是一种基于历史条件的视觉-语言-动作框架,通过编码来自视觉观测的短时意图,提升机器人模仿学习的稳定性,应对部分可观测性和歧义观测带来的挑战。

机器人模仿数据通常具有多模态性:相似的视觉-语言观测可能后续跟随不同的动作段,因为人类演示者执行时带有不同的短时意图 (https://huggingface.co/papers?q=short-horizon%20intents)、任务阶段或近期的上下文。现有的基于帧条件 (https://huggingface.co/papers?q=frame-conditioned) 的 VLA 策略仅从当前观测和指令推断每个动作段,因此在部分可观测性 (https://huggingface.co/papers?q=partial%20observability) 下,它们可能在相邻的重新规划步骤中重新采样不同的意图,导致段间冲突和不稳定的执行。我们引入了 IntentVLA,一种基于历史条件 (https://huggingface.co/papers?q=history-conditioned) 的 VLA 框架,将最近的视觉观测编码为紧凑的短时意图表征 (https://huggingface.co/papers?q=intent%20representation),并利用它来条件化段生成。我们进一步引入了基于 RoboTwin2 (https://huggingface.co/papers?q=RoboTwin2) 的 AliasBench (https://huggingface.co/papers?q=AliasBench),一个包含12个任务的歧义感知基准 (https://huggingface.co/papers?q=ambiguity-aware%20benchmark),具有匹配的训练数据和评估环境,隔离了短时观测歧义。在 AliasBench (https://huggingface.co/papers?q=AliasBench)、SimplerEnv、LIBERO 和 RoboCasa 上,IntentVLA 提升了 rollout 稳定性 (https://huggingface.co/papers?q=rollout%20stability),并优于强大的 VLA 基线。

查看 arXiv 页面 (https://arxiv.org/abs/2605.14712) 查看 PDF (https://arxiv.org/pdf/2605.14712) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14712)

在你的 agent 中获取此论文:

hf papers read 2605\.14712

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.14712 以将其链接到此页面。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.14712 以将其链接到此页面。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.14712 以将其链接到此页面。

包含此论文的收藏夹0

没有包含此论文的收藏夹

将此论文添加到一个收藏夹 (https://huggingface.co/new-collection) 以将其链接到此页面。

相似文章

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v

通过残差潜在动作学习基于视觉特征的世界模型

Hugging Face Daily Papers

本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。

刚刚开源 FastVLA

Reddit r/LocalLLaMA

FastVLA,一款开源视觉-语言-动作模型,现可在 L4 GPU 上实现 5 Hz 机器人控制。