CapVector:面向视觉-语言-动作模型的参数空间可迁移能力向量学习

Hugging Face Daily Papers 论文

摘要

本文介绍了 CapVector,这是一种将辅助训练目标与视觉-语言-动作模型的标准监督微调解耦的方法。通过提取可迁移能力向量并引入正交正则化,该方法在显著提升模型性能与泛化能力的同时,大幅降低了计算开销。

本文提出了一种新颖的方法,旨在解决预训练 VLA 模型在标准监督微调(SFT)过程中往往难以有效提升性能并降低适配成本的挑战。部分引入辅助训练目标的高级微调方法虽能提升性能并缩短收敛步数,但辅助目标带来的额外损失通常会导致显著的计算开销。为在保持标准 SFT 简洁性的同时获得辅助训练带来的能力增强,我们在参数空间内将基于辅助目标的 SFT 的两个目标解耦,即提升通用能力与拟合特定任务的动作分布。为实现这一目标,我们仅需使用两种不同的训练策略,让模型在小规模任务集上训练至收敛,从而得到两个微调模型。随后,这两个模型之间的参数差异可被解释为辅助目标所提供的能力向量。接着,将这些向量与预训练参数融合,即可构建出能力增强的元模型。此外,当标准 SFT 辅以轻量级的正交正则化损失时,融合后的模型能够在大幅降低计算开销的情况下,达到与辅助微调基线模型相当的性能。内部与外部实验表明,我们的能力向量(1)在多种模型上均有效且通用;(2)无需额外调整即可直接泛化至全新的环境与具身形态。
查看原文
查看缓存全文

缓存时间: 2026/05/12 10:52

论文页面 - CapVector: 学习参数空间中可迁移的能力向量,用于视觉-语言-动作模型

来源: https://huggingface.co/papers/2605.10903

摘要

一种新方法将辅助训练目标与标准监督微调解耦,通过能力向量合并与正交正则化,在增强模型能力的同时降低计算开销。

本文提出了一种新方法,旨在解决预训练VLA模型 (https://huggingface.co/papers?q=pretrained%20VLA%20models) 在进行标准监督微调 (https://huggingface.co/papers?q=supervised%20finetuning)(SFT)时,往往难以有效提升性能并降低适配成本的问题。一些带有辅助训练目标 (https://huggingface.co/papers?q=auxiliary%20training%20objectives) 的先进微调方法可以提升性能并减少收敛步数 (https://huggingface.co/papers?q=convergence%20steps)。然而,这些方法通常会因辅助目标带来的额外损失而产生显著的计算开销。为同时实现辅助训练的能力增强与标准SFT的简洁性,我们在参数空间 (https://huggingface.co/papers?q=parameter%20space) 中对辅助目标SFT的两个目标进行解耦,即增强通用能力 (https://huggingface.co/papers?q=general%20capabilities) 与拟合任务特定的动作分布 (https://huggingface.co/papers?q=task-specific%20action%20distributions)。为达到此目标,我们仅需使用两种不同的训练策略,在一个小规模任务集上将模型训练至收敛,得到两个微调后的模型。这两个模型之间的参数差异即可解释为由辅助目标提供的能力向量 (https://huggingface.co/papers?q=capability%20vectors)。随后,将这些向量与预训练参数合并,形成一个能力增强的元模型 (https://huggingface.co/papers?q=meta%20model)。更进一步,当标准SFT中加入轻量级的正交正则化损失 (https://huggingface.co/papers?q=orthogonal%20regularization%20loss) 时,合并后的模型能够达到与辅助微调基线方法相当的性能,同时降低了计算开销。内部与外部实验表明,我们的能力向量 (https://huggingface.co/papers?q=capability%20vectors) (1) 在不同模型上均有效且通用,(2) 能够开箱即用地泛化到新环境与新本体形态。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10903) 查看 PDF (https://arxiv.org/pdf/2605.10903) 项目页面 (https://capvector.github.io/) GitHub2 (https://github.com/OpenHelix-Team/CapVector) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10903)

通过智能代理获取此论文:

hf papers read 2605.10903

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 1

haofuly/capvector_models_collection 机器人学• 更新于约3小时前 (https://huggingface.co/haofuly/capvector_models_collection)

引用此论文的数据集 0

尚无数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10903 即可从本页面链接过去。

引用此论文的 Spaces 0

尚无 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10903 即可从本页面链接过去。

包含此论文的合集 0

尚无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可从本页面链接过去。

相似文章

超越英语:揭示视觉-语言-动作模型中的多语言差距

arXiv cs.CL

本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。