CapVector:面向视觉-语言-动作模型的参数空间可迁移能力向量学习
摘要
本文介绍了 CapVector,这是一种将辅助训练目标与视觉-语言-动作模型的标准监督微调解耦的方法。通过提取可迁移能力向量并引入正交正则化,该方法在显著提升模型性能与泛化能力的同时,大幅降低了计算开销。
查看缓存全文
缓存时间: 2026/05/12 10:52
论文页面 - CapVector: 学习参数空间中可迁移的能力向量,用于视觉-语言-动作模型
来源: https://huggingface.co/papers/2605.10903
摘要
一种新方法将辅助训练目标与标准监督微调解耦,通过能力向量合并与正交正则化,在增强模型能力的同时降低计算开销。
本文提出了一种新方法,旨在解决预训练VLA模型 (https://huggingface.co/papers?q=pretrained%20VLA%20models) 在进行标准监督微调 (https://huggingface.co/papers?q=supervised%20finetuning)(SFT)时,往往难以有效提升性能并降低适配成本的问题。一些带有辅助训练目标 (https://huggingface.co/papers?q=auxiliary%20training%20objectives) 的先进微调方法可以提升性能并减少收敛步数 (https://huggingface.co/papers?q=convergence%20steps)。然而,这些方法通常会因辅助目标带来的额外损失而产生显著的计算开销。为同时实现辅助训练的能力增强与标准SFT的简洁性,我们在参数空间 (https://huggingface.co/papers?q=parameter%20space) 中对辅助目标SFT的两个目标进行解耦,即增强通用能力 (https://huggingface.co/papers?q=general%20capabilities) 与拟合任务特定的动作分布 (https://huggingface.co/papers?q=task-specific%20action%20distributions)。为达到此目标,我们仅需使用两种不同的训练策略,在一个小规模任务集上将模型训练至收敛,得到两个微调后的模型。这两个模型之间的参数差异即可解释为由辅助目标提供的能力向量 (https://huggingface.co/papers?q=capability%20vectors)。随后,将这些向量与预训练参数合并,形成一个能力增强的元模型 (https://huggingface.co/papers?q=meta%20model)。更进一步,当标准SFT中加入轻量级的正交正则化损失 (https://huggingface.co/papers?q=orthogonal%20regularization%20loss) 时,合并后的模型能够达到与辅助微调基线方法相当的性能,同时降低了计算开销。内部与外部实验表明,我们的能力向量 (https://huggingface.co/papers?q=capability%20vectors) (1) 在不同模型上均有效且通用,(2) 能够开箱即用地泛化到新环境与新本体形态。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10903) 查看 PDF (https://arxiv.org/pdf/2605.10903) 项目页面 (https://capvector.github.io/) GitHub2 (https://github.com/OpenHelix-Team/CapVector) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10903)
通过智能代理获取此论文:
hf papers read 2605.10903
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 1
haofuly/capvector_models_collection 机器人学• 更新于约3小时前 (https://huggingface.co/haofuly/capvector_models_collection)
引用此论文的数据集 0
尚无数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.10903 即可从本页面链接过去。
引用此论文的 Spaces 0
尚无 Space 关联此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.10903 即可从本页面链接过去。
包含此论文的合集 0
尚无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 即可从本页面链接过去。
相似文章
大型语言模型教导视觉学生:细粒度概念知识的跨模态迁移
本文介绍了LaViD框架,该框架通过生成多项选择题作为概念签名,将语义知识从纯语言大语言模型转移到视觉学生模型,实现了优越的细粒度分类性能和鲁棒性。
StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型
本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。
超越英语:揭示视觉-语言-动作模型中的多语言差距
本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。
检索,而非重新训练:在测试时将视觉语言动作模型扩展到新任务
本文介绍了一种检索增强的视觉-语言-动作策略,通过使用预训练模型和索引演示,消除了每个任务的微调,实现了高效的跨本体泛化和测试时的任务适应。
APT:动作专家预训练提升视觉-语言-动作策略的指令泛化能力
研究人员提出APT,一种两阶段训练方法,先在视觉-动作对上预训练动作专家,再整合语言条件,显著提升视觉-语言-动作策略在分布外指令上的泛化能力。