IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

IntentVLA 是一种历史条件视觉-语言-动作框架，通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性，解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench，这是一个用于评估此类方法的模糊感知基准。

机器人模仿数据通常是多模态的：相似的视觉-语言观测可能跟随不同的动作块，因为人类演示者具有不同的短期意图、任务阶段或近期上下文。现有的帧条件VLA策略仅根据当前观测和指令推断每个动作块，因此在部分可观察性下，它们可能在不同的重新规划步骤中重新采样不同的意图，导致块间冲突和不稳定的执行。我们引入了 IntentVLA，一种历史条件VLA框架，它将最近的视觉观测编码为紧凑的短期意图表示，并用它来条件化动作块的生成。我们还引入了 AliasBench，这是一个基于RoboTwin2的12任务模糊感知基准，具有匹配的训练数据和评估环境，隔离了短期观测混叠。在AliasBench、SimplerEnv、LIBERO和RoboCasa上，IntentVLA提高了展开稳定性，并超越了强VLA基线。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - IntentVLA: 面向歧义机器人操控的短时意图建模

来源：https://huggingface.co/papers/2605.14712 作者：

摘要

IntentVLA 是一种基于历史条件的视觉-语言-动作框架，通过编码来自视觉观测的短时意图，提升机器人模仿学习的稳定性，应对部分可观测性和歧义观测带来的挑战。

机器人模仿数据通常具有多模态性：相似的视觉-语言观测可能后续跟随不同的动作段，因为人类演示者执行时带有不同的短时意图 (https://huggingface.co/papers?q=short-horizon%20intents)、任务阶段或近期的上下文。现有的基于帧条件 (https://huggingface.co/papers?q=frame-conditioned) 的 VLA 策略仅从当前观测和指令推断每个动作段，因此在部分可观测性 (https://huggingface.co/papers?q=partial%20observability) 下，它们可能在相邻的重新规划步骤中重新采样不同的意图，导致段间冲突和不稳定的执行。我们引入了 IntentVLA，一种基于历史条件 (https://huggingface.co/papers?q=history-conditioned) 的 VLA 框架，将最近的视觉观测编码为紧凑的短时意图表征 (https://huggingface.co/papers?q=intent%20representation)，并利用它来条件化段生成。我们进一步引入了基于 RoboTwin2 (https://huggingface.co/papers?q=RoboTwin2) 的 AliasBench (https://huggingface.co/papers?q=AliasBench)，一个包含12个任务的歧义感知基准 (https://huggingface.co/papers?q=ambiguity-aware%20benchmark)，具有匹配的训练数据和评估环境，隔离了短时观测歧义。在 AliasBench (https://huggingface.co/papers?q=AliasBench)、SimplerEnv、LIBERO 和 RoboCasa 上，IntentVLA 提升了 rollout 稳定性 (https://huggingface.co/papers?q=rollout%20stability)，并优于强大的 VLA 基线。

查看 arXiv 页面 (https://arxiv.org/abs/2605.14712) 查看 PDF (https://arxiv.org/pdf/2605.14712) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14712)

在你的 agent 中获取此论文：

hf papers read 2605\.14712

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.14712 以将其链接到此页面。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.14712 以将其链接到此页面。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.14712 以将其链接到此页面。

包含此论文的收藏夹0

没有包含此论文的收藏夹

将此论文添加到一个收藏夹 (https://huggingface.co/new-collection) 以将其链接到此页面。

相似文章

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架，通过使用扩散变换器动作专家将语义规划与运动控制解耦，从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家，在长周期任务和细粒度操作方面尤其优于端到端基线。

D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架

arXiv cs.AI

D-VLA 提出了一种高并发分布式异步强化学习框架，用于视觉-语言-动作模型，采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

通过残差潜在动作学习基于视觉特征的世界模型

Hugging Face Daily Papers

本文介绍了 RLA-WM，一种基于视觉特征的世界模型，该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法，同时支持从离线、无动作演示视频中探索新型机器人学习技术。

刚刚开源 FastVLA

Reddit r/LocalLLaMA

FastVLA，一款开源视觉-语言-动作模型，现可在 L4 GPU 上实现 5 Hz 机器人控制。

论文页面 - IntentVLA: 面向歧义机器人操控的短时意图建模

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏夹0

相似文章

HiVLA: 一种以视觉接地为中心的分层具身操作系统

D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架

OneVL：基于视觉语言解释的单步隐式推理与规划

通过残差潜在动作学习基于视觉特征的世界模型

刚刚开源 FastVLA

提交意见反馈