检索，而非重新训练：在测试时将视觉语言动作模型扩展到新任务

Hugging Face Daily Papers 2026/06/14 00:00 论文

retrieval-augmented vision-language-action robotics fine-tuning cross-embodiment generalization policy

摘要

本文介绍了一种检索增强的视觉-语言-动作策略，通过使用预训练模型和索引演示，消除了每个任务的微调，实现了高效的跨本体泛化和测试时的任务适应。

将视觉-语言-动作（VLA）策略扩展到新任务通常需要特定于任务的遥操作演示和每个任务的微调，这使得在数据收集和计算方面适应成本高昂。在本文中，我们表明这种目标端每个任务的适应成本可以被检索所取代。我们的检索增强策略在来自目标本体（查询）和更廉价本体（池，例如人手视频）的配对演示上进行一次训练，然后冻结。新任务通过在部署时将池端演示附加到检索池中来添加。冻结的策略在每个控制步骤中根据检索到的轨迹进行条件化，因此新任务通过索引数据而非更新参数来吸收。仅当面对新的、未见过的本体时才需要微调，而非每个新任务。我们表明，检索能够改进超出特定主干结构的策略，包括标准的VLA策略，但其效果在Cosmos Policy（一种基于视频生成的世界动作模型，WAM）中尤为显著。在这种设置下，检索提供了粗略的任务进展，而WAM的未来图像目标提供了额外的视觉一致性信号，增强了检索条件化的动作。在PushT上，我们研究了检索如何为跨本体泛化到未见目标角度提供可复用的高层运动先验；在RoboTwin 2.0上，我们的方法在未见任务上优于跨本体基线，并且我们还在真实机器人上演示了该方法。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:34

论文页面 - 检索，不要重新训练：在测试时扩展视觉-语言-动作模型到新任务

来源：https://huggingface.co/papers/2606.15631 发表于6月14日

由https://huggingface.co/Jeongeun

Park (https://huggingface.co/Jeongeun)于6月16日提交

摘要

检索增强的视觉-语言-动作策略通过使用带有索引示范的预训练模型消除每任务微调成本，实现高效的跨实体泛化和任务适应。

将视觉-语言-动作（VLA）策略扩展到新任务通常需要特定任务的远程操作示范及每任务微调，使得适应在数据收集和计算两方面都成本高昂。本文表明，这种目标端的每任务适应成本可以由检索替代。我们的检索增强策略在目标实体（查询）和较便宜实体（池，例如人类手部视频）的配对示范上训练一次，然后冻结。新任务在部署时通过将池端示范追加到检索池中添加。冻结策略在每个控制步骤以检索到的轨迹为条件，因此新任务通过索引数据而非更新参数来吸收。仅在处理新的、未见过的实体时需要微调，而非针对每个新任务。我们显示，检索能提升超越特定主干网络的策略性能，包括标准VLA策略，但其效果在 Cosmos Policy（一种基于视频生成的世界-动作模型，WAM）中尤为显著。在此设置中，检索提供粗略的任务进程，而WAM的未来图像目标提供额外的视觉一致性信号，增强了检索条件动作。在PushT上，我们研究了检索如何为跨实体泛化到未见目标角度提供可重用的高层运动先验，而在RoboTwin 2.0上，我们的方法在未见任务上优于跨实体基线，并且我们还在真实机器人上演示了该方法。

查看arXiv页面 (https://arxiv.org/abs/2606.15631)查看PDF (https://arxiv.org/pdf/2606.15631)项目页面 (https://recap-robot.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.15631)

在你的智能体中获取此论文：

hf papers read 2606\.15631

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型的README.md中引用arxiv.org/abs/2606.15631以从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集的README.md中引用arxiv.org/abs/2606.15631以从本页链接。

引用此论文的Space0

没有Space链接到此论文

在Space的README.md中引用arxiv.org/abs/2606.15631以从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)以从本页链接。

检索，而非重新训练：在测试时将视觉语言动作模型扩展到新任务

论文页面 - 检索，不要重新训练：在测试时扩展视觉-语言-动作模型到新任务

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

APT：动作专家预训练提升视觉-语言-动作策略的指令泛化能力

StableVLA：迈向无需额外数据的稳健视觉-语言-动作模型

PolicyTrim: 提升视觉-语言-动作模型的本征策略效率

EventVLA: 事件驱动的视觉证据记忆用于长时域视觉-语言-动作策略

AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家

提交意见反馈