检索,而非重新训练:在测试时将视觉语言动作模型扩展到新任务
摘要
本文介绍了一种检索增强的视觉-语言-动作策略,通过使用预训练模型和索引演示,消除了每个任务的微调,实现了高效的跨本体泛化和测试时的任务适应。
查看缓存全文
缓存时间: 2026/06/16 11:34
论文页面 - 检索,不要重新训练:在测试时扩展视觉-语言-动作模型到新任务
来源:https://huggingface.co/papers/2606.15631 发表于6月14日
·
由https://huggingface.co/Jeongeun
Park (https://huggingface.co/Jeongeun)于6月16日提交
摘要
检索增强的视觉-语言-动作策略通过使用带有索引示范的预训练模型消除每任务微调成本,实现高效的跨实体泛化和任务适应。
将视觉-语言-动作(VLA)策略扩展到新任务通常需要特定任务的远程操作示范及每任务微调,使得适应在数据收集和计算两方面都成本高昂。本文表明,这种目标端的每任务适应成本可以由检索替代。我们的检索增强策略在目标实体(查询)和较便宜实体(池,例如人类手部视频)的配对示范上训练一次,然后冻结。新任务在部署时通过将池端示范追加到检索池中添加。冻结策略在每个控制步骤以检索到的轨迹为条件,因此新任务通过索引数据而非更新参数来吸收。仅在处理新的、未见过的实体时需要微调,而非针对每个新任务。我们显示,检索能提升超越特定主干网络的策略性能,包括标准VLA策略,但其效果在 Cosmos Policy(一种基于视频生成的世界-动作模型,WAM)中尤为显著。在此设置中,检索提供粗略的任务进程,而WAM的未来图像目标提供额外的视觉一致性信号,增强了检索条件动作。在PushT上,我们研究了检索如何为跨实体泛化到未见目标角度提供可重用的高层运动先验,而在RoboTwin 2.0上,我们的方法在未见任务上优于跨实体基线,并且我们还在真实机器人上演示了该方法。
查看arXiv页面 (https://arxiv.org/abs/2606.15631)查看PDF (https://arxiv.org/pdf/2606.15631)项目页面 (https://recap-robot.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.15631)
在你的智能体中获取此论文:
hf papers read 2606\.15631
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型的README.md中引用arxiv.org/abs/2606.15631以从本页链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集的README.md中引用arxiv.org/abs/2606.15631以从本页链接。
引用此论文的Space0
没有Space链接到此论文
在Space的README.md中引用arxiv.org/abs/2606.15631以从本页链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection)以从本页链接。
相似文章
APT:动作专家预训练提升视觉-语言-动作策略的指令泛化能力
研究人员提出APT,一种两阶段训练方法,先在视觉-动作对上预训练动作专家,再整合语言条件,显著提升视觉-语言-动作策略在分布外指令上的泛化能力。
StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型
本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。
PolicyTrim: 提升视觉-语言-动作模型的本征策略效率
PolicyTrim是一种基于强化学习的后训练框架,能将视觉-语言-动作模型的动作块利用率提升3倍,并将物理执行步骤减少51.4%,实现高达5.83倍的部署加速。
EventVLA: 事件驱动的视觉证据记忆用于长时域视觉-语言-动作策略
EventVLA 提出了一种稀疏视觉证据记忆框架用于长时域机器人操作,相较于最先进的记忆增强型VLA,平均成功率提升了40%。
AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。