TBD-VLA: 时序块扩散视觉语言动作模型
摘要
TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。
查看缓存全文
缓存时间: 2026/06/09 08:44
论文页面 - TBD-VLA: 时间分块扩散视觉语言动作模型
来源:https://huggingface.co/papers/2606.07895
摘要
TBD-VLA 是一种离散视觉-语言-动作框架,它将分块扩散与自回归生成相结合,以实现高效的时间动作建模和更快的推理。
离散视觉-语言-动作(VLA)模型通常将动作生成表述为在离散化动作空间上的下一个标记预测,每个标记都基于先前的上下文进行自回归条件生成。虽然这种方法有效,但会导致高推理延迟,并且很大程度上忽略了动作轨迹中固有的时间结构。近期的研究引入了并行解码以提高效率,实现更快的推理,但缺乏明确的标记依赖关系建模机制。我们提出了 TBD-VLA,这是一种基于离散标记的 VLA 框架,它融入了分块扩散以实现时间动作生成。我们将动作序列划分为时间块,并在每个块内执行掩码离散扩散,同时跨块保持自回归生成。这种设计统一了时间自回归和并行动作解码,同时实现了强时间连贯性和更快的推理速度。此外,显式的时间建模使得能够通过时间修复实现动作块的异步执行(例如,实时分块)。TBD-VLA 在仿真和真实世界操作任务中均显著优于先前的 VLA 方法,为通向快速、具有时间感知能力的离散 VLA 模型提供了一条可扩展的路径。项目网页:https://tbd-vla.github.io/
查看 arXiv 页面 (https://arxiv.org/abs/2606.07895)查看 PDF (https://arxiv.org/pdf/2606.07895)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07895)
在你的代理中获取这篇论文:
hf papers read 2606\.07895
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.07895 以从此页面链接它。
包含此论文的合集1
相似文章
AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架
D-VLA 提出了一种高并发分布式异步强化学习框架,用于视觉-语言-动作模型,采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。
AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型
AffordanceVLA引入了一个统一框架,利用结构化可供性预测作为中间表示,结合视觉-语言模型和混合Transformer架构,以改进机器人操作中的感知-动作映射。
StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型
本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。