标签
TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。
本文建立了一个关于自回归思维链推理的在线学习理论框架,分析了端到端监督和轨迹监督模型下的错误边界。