克服动态盲视:面向VLA模型的免训练Pace-and-Path Correction

Hugging Face Daily Papers 论文

摘要

提出一种免训练推理时方法,用于VLA模型校正步调与路径动态,在动态环境中将成功率最高提升28.8%。

视觉-语言-动作(VLA)模型在经典控制范式之外展现出卓越的灵活性和泛化能力。然而,大多数主流VLA模型在单帧观测范式下训练,这导致它们在结构上对时间动态存在盲视。因此,即使经过动态数据集的训练或微调,这些模型在非平稳场景中仍会严重退化。现有方法要么需要昂贵的重新训练,要么面临延迟瓶颈和动作块间时间一致性差的问题。我们提出Pace-and-Path Correction,一种免训练的闭式推理时算子,可包装任意分块动作VLA模型。通过单一二次代价的联合最小化,得到一个统一解,该解正交分解为两个独立通道:步调通道沿计划方向压缩执行,路径通道施加正交空间偏移,两者共同吸收块窗口内感知到的动态。我们在综合诊断基准MoveBench上评估了该方法,该基准专门将运动隔离为唯一受控变量。实验结果表明,我们的框架持续优于最先进的免训练包装器和动态自适应方法,并在纯动态环境和动静混合环境中,分别将基础VLA模型的成功率绝对值提升最高28.8%和25.9%。
查看原文
查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - 克服动态盲区:面向 VLA 模型的无训练节奏与路径校正

来源:https://huggingface.co/papers/2605.11459

摘要

视觉-语言-动作模型在动态环境中存在时间盲区,但一种利用二次优化的无训练校正方法能够同时处理节奏与路径动态,从而提升性能。

视觉-语言-动作(Vision-Language-Action, VLA)模型展现出超越经典控制范式的卓越灵活性与泛化能力。然而,当前大多数主流的 VLA 模型采用单帧观测范式进行训练,这导致它们在结构上对时间动态(temporal dynamics, https://huggingface.co/papers?q=temporal%20dynamics)存在盲区。因此,这些模型在非平稳场景中性能严重下降,即便经过动态数据集的训练或微调也是如此。现有方法要么需要昂贵的重训练,要么面临延迟瓶颈以及动作片段间时间一致性差的问题。我们提出节奏与路径校正(Pace-and-Path Correction),一种无需训练的、闭式推理时操作算子,可封装任意采用分块动作(chunked-action, https://huggingface.co/papers?q=chunked-action)的 VLA 模型。从单一二次成本(quadratic cost, https://huggingface.co/papers?q=quadratic%20cost)出发,联合最小化(joint minimization, https://huggingface.co/papers?q=joint%20minimization)得到一个统一解,该解正交分解为两个不同通道:节奏通道沿规划方向压缩执行,路径通道则施加正交空间偏移,两者共同在分块窗口内吸收所感知的动态。我们在一个全面的诊断基准 MoveBench(旨在将运动作为唯一控制变量)上评估了我们的方法。实验结果表明,我们的框架始终优于最先进的无训练封装方法和动态自适应方法,在纯动态环境以及静态-动态混合环境(static-dynamic mixed environments, https://huggingface.co/papers?q=static-dynamic%20mixed%20environments)中,相较于基础 VLA 模型,成功率绝对提升分别高达 28.8% 和 25.9%。

查看 arXiv 页面 (https://arxiv.org/abs/2605.11459) 查看 PDF (https://arxiv.org/pdf/2605.11459) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11459)

在你的 agent 中获取此论文:

hf papers read 2605\.11459

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型(0)

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.11459 以从此页面链接。

引用此论文的数据集(0)

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.11459 以从此页面链接。

引用此论文的 Space(0)

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.11459 以从此页面链接。

包含此论文的收藏集(0)

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

视觉-语言-动作模型中的闭环神经激活控制

arXiv cs.AI

提出CTRL-STEER,一种闭环框架,通过时变控制信号对视觉-语言-动作模型进行自适应引导,在无需重新训练的情况下,实现了概念调节与任务成功率之间的更好权衡。

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。