克服动态盲视:面向VLA模型的免训练Pace-and-Path Correction
摘要
提出一种免训练推理时方法,用于VLA模型校正步调与路径动态,在动态环境中将成功率最高提升28.8%。
查看缓存全文
缓存时间: 2026/05/15 08:24
论文页面 - 克服动态盲区:面向 VLA 模型的无训练节奏与路径校正
来源:https://huggingface.co/papers/2605.11459
摘要
视觉-语言-动作模型在动态环境中存在时间盲区,但一种利用二次优化的无训练校正方法能够同时处理节奏与路径动态,从而提升性能。
视觉-语言-动作(Vision-Language-Action, VLA)模型展现出超越经典控制范式的卓越灵活性与泛化能力。然而,当前大多数主流的 VLA 模型采用单帧观测范式进行训练,这导致它们在结构上对时间动态(temporal dynamics, https://huggingface.co/papers?q=temporal%20dynamics)存在盲区。因此,这些模型在非平稳场景中性能严重下降,即便经过动态数据集的训练或微调也是如此。现有方法要么需要昂贵的重训练,要么面临延迟瓶颈以及动作片段间时间一致性差的问题。我们提出节奏与路径校正(Pace-and-Path Correction),一种无需训练的、闭式推理时操作算子,可封装任意采用分块动作(chunked-action, https://huggingface.co/papers?q=chunked-action)的 VLA 模型。从单一二次成本(quadratic cost, https://huggingface.co/papers?q=quadratic%20cost)出发,联合最小化(joint minimization, https://huggingface.co/papers?q=joint%20minimization)得到一个统一解,该解正交分解为两个不同通道:节奏通道沿规划方向压缩执行,路径通道则施加正交空间偏移,两者共同在分块窗口内吸收所感知的动态。我们在一个全面的诊断基准 MoveBench(旨在将运动作为唯一控制变量)上评估了我们的方法。实验结果表明,我们的框架始终优于最先进的无训练封装方法和动态自适应方法,在纯动态环境以及静态-动态混合环境(static-dynamic mixed environments, https://huggingface.co/papers?q=static-dynamic%20mixed%20environments)中,相较于基础 VLA 模型,成功率绝对提升分别高达 28.8% 和 25.9%。
查看 arXiv 页面 (https://arxiv.org/abs/2605.11459) 查看 PDF (https://arxiv.org/pdf/2605.11459) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11459)
在你的 agent 中获取此论文:
hf papers read 2605\.11459
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型(0)
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.11459 以从此页面链接。
引用此论文的数据集(0)
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.11459 以从此页面链接。
引用此论文的 Space(0)
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.11459 以从此页面链接。
包含此论文的收藏集(0)
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型
本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。
D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架
D-VLA 提出了一种高并发分布式异步强化学习框架,用于视觉-语言-动作模型,采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。
AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
视觉-语言-动作模型中的闭环神经激活控制
提出CTRL-STEER,一种闭环框架,通过时变控制信号对视觉-语言-动作模型进行自适应引导,在无需重新训练的情况下,实现了概念调节与任务成功率之间的更好权衡。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。