TBD-VLA: 时序块扩散视觉语言动作模型

Hugging Face Daily Papers 2026/06/05 00:00 论文

摘要

TBD-VLA 提出了一种离散的视觉-语言-动作框架，结合了块扩散与自回归生成，以实现高效的时序动作建模和更快的推理速度，在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。

离散视觉-语言-动作（VLA）模型通常将动作生成建模为在离散动作空间上的下一个 token 预测，每个 token 自回归地基于先前上下文进行条件生成。虽然有效，但这种范式会导致高推理延迟，并且很大程度上忽略了动作轨迹中固有的时序结构。最近的工作引入了并行解码以提高效率，实现更快的推理，但缺乏用于建模 token 依赖关系的显式机制。我们提出了 TBD-VLA，一种基于离散 token 的 VLA 框架，它引入了块扩散以实现时序动作生成。我们将动作序列划分为时序块，并在每个块内执行掩码离散扩散，同时在块之间保持自回归生成。这种设计统一了时序自回归和并行动作解码，同时实现了强时序一致性和更快的推理速度。此外，显式的时序建模使得能够通过时序修补（temporal in-painting）实现动作块的异步执行（例如，Real-Time Chunking）。TBD-VLA 在仿真和真实世界的操作任务中显著优于之前的 VLA 方法，为迈向快速、时序感知的离散 VLA 模型提供了一条可扩展的路径。项目网页：https://tbd-vla.github.io/

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:44

论文页面 - TBD-VLA: 时间分块扩散视觉语言动作模型

来源：https://huggingface.co/papers/2606.07895

摘要

TBD-VLA 是一种离散视觉-语言-动作框架，它将分块扩散与自回归生成相结合，以实现高效的时间动作建模和更快的推理。

离散视觉-语言-动作（VLA）模型通常将动作生成表述为在离散化动作空间上的下一个标记预测，每个标记都基于先前的上下文进行自回归条件生成。虽然这种方法有效，但会导致高推理延迟，并且很大程度上忽略了动作轨迹中固有的时间结构。近期的研究引入了并行解码以提高效率，实现更快的推理，但缺乏明确的标记依赖关系建模机制。我们提出了 TBD-VLA，这是一种基于离散标记的 VLA 框架，它融入了分块扩散以实现时间动作生成。我们将动作序列划分为时间块，并在每个块内执行掩码离散扩散，同时跨块保持自回归生成。这种设计统一了时间自回归和并行动作解码，同时实现了强时间连贯性和更快的推理速度。此外，显式的时间建模使得能够通过时间修复实现动作块的异步执行（例如，实时分块）。TBD-VLA 在仿真和真实世界操作任务中均显著优于先前的 VLA 方法，为通向快速、具有时间感知能力的离散 VLA 模型提供了一条可扩展的路径。项目网页：https://tbd-vla.github.io/

查看 arXiv 页面 (https://arxiv.org/abs/2606.07895)查看 PDF (https://arxiv.org/pdf/2606.07895)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07895)

在你的代理中获取这篇论文：

hf papers read 2606\.07895

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。

TBD-VLA: 时序块扩散视觉语言动作模型

论文页面 - TBD-VLA: 时间分块扩散视觉语言动作模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的合集1

相似文章

AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

StableVLA：迈向无需额外数据的稳健视觉-语言-动作模型

提交意见反馈