TBD-VLA: 时序块扩散视觉语言动作模型

Hugging Face Daily Papers 论文

摘要

TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。

离散视觉-语言-动作(VLA)模型通常将动作生成建模为在离散动作空间上的下一个 token 预测,每个 token 自回归地基于先前上下文进行条件生成。虽然有效,但这种范式会导致高推理延迟,并且很大程度上忽略了动作轨迹中固有的时序结构。最近的工作引入了并行解码以提高效率,实现更快的推理,但缺乏用于建模 token 依赖关系的显式机制。我们提出了 TBD-VLA,一种基于离散 token 的 VLA 框架,它引入了块扩散以实现时序动作生成。我们将动作序列划分为时序块,并在每个块内执行掩码离散扩散,同时在块之间保持自回归生成。这种设计统一了时序自回归和并行动作解码,同时实现了强时序一致性和更快的推理速度。此外,显式的时序建模使得能够通过时序修补(temporal in-painting)实现动作块的异步执行(例如,Real-Time Chunking)。TBD-VLA 在仿真和真实世界的操作任务中显著优于之前的 VLA 方法,为迈向快速、时序感知的离散 VLA 模型提供了一条可扩展的路径。项目网页:https://tbd-vla.github.io/
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:44

论文页面 - TBD-VLA: 时间分块扩散视觉语言动作模型

来源:https://huggingface.co/papers/2606.07895

摘要

TBD-VLA 是一种离散视觉-语言-动作框架,它将分块扩散与自回归生成相结合,以实现高效的时间动作建模和更快的推理。

离散视觉-语言-动作(VLA)模型通常将动作生成表述为在离散化动作空间上的下一个标记预测,每个标记都基于先前的上下文进行自回归条件生成。虽然这种方法有效,但会导致高推理延迟,并且很大程度上忽略了动作轨迹中固有的时间结构。近期的研究引入了并行解码以提高效率,实现更快的推理,但缺乏明确的标记依赖关系建模机制。我们提出了 TBD-VLA,这是一种基于离散标记的 VLA 框架,它融入了分块扩散以实现时间动作生成。我们将动作序列划分为时间块,并在每个块内执行掩码离散扩散,同时跨块保持自回归生成。这种设计统一了时间自回归和并行动作解码,同时实现了强时间连贯性和更快的推理速度。此外,显式的时间建模使得能够通过时间修复实现动作块的异步执行(例如,实时分块)。TBD-VLA 在仿真和真实世界操作任务中均显著优于先前的 VLA 方法,为通向快速、具有时间感知能力的离散 VLA 模型提供了一条可扩展的路径。项目网页:https://tbd-vla.github.io/

查看 arXiv 页面 (https://arxiv.org/abs/2606.07895)查看 PDF (https://arxiv.org/pdf/2606.07895)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07895)

在你的代理中获取这篇论文:

hf papers read 2606\.07895

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。

包含此论文的合集1

相似文章

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。