CapVector：面向视觉-语言-动作模型的参数空间可迁移能力向量学习

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

本文介绍了 CapVector，这是一种将辅助训练目标与视觉-语言-动作模型的标准监督微调解耦的方法。通过提取可迁移能力向量并引入正交正则化，该方法在显著提升模型性能与泛化能力的同时，大幅降低了计算开销。

本文提出了一种新颖的方法，旨在解决预训练 VLA 模型在标准监督微调（SFT）过程中往往难以有效提升性能并降低适配成本的挑战。部分引入辅助训练目标的高级微调方法虽能提升性能并缩短收敛步数，但辅助目标带来的额外损失通常会导致显著的计算开销。为在保持标准 SFT 简洁性的同时获得辅助训练带来的能力增强，我们在参数空间内将基于辅助目标的 SFT 的两个目标解耦，即提升通用能力与拟合特定任务的动作分布。为实现这一目标，我们仅需使用两种不同的训练策略，让模型在小规模任务集上训练至收敛，从而得到两个微调模型。随后，这两个模型之间的参数差异可被解释为辅助目标所提供的能力向量。接着，将这些向量与预训练参数融合，即可构建出能力增强的元模型。此外，当标准 SFT 辅以轻量级的正交正则化损失时，融合后的模型能够在大幅降低计算开销的情况下，达到与辅助微调基线模型相当的性能。内部与外部实验表明，我们的能力向量（1）在多种模型上均有效且通用；（2）无需额外调整即可直接泛化至全新的环境与具身形态。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 10:52

论文页面 - CapVector: 学习参数空间中可迁移的能力向量，用于视觉-语言-动作模型

来源: https://huggingface.co/papers/2605.10903

摘要

一种新方法将辅助训练目标与标准监督微调解耦，通过能力向量合并与正交正则化，在增强模型能力的同时降低计算开销。

本文提出了一种新方法，旨在解决预训练VLA模型 (https://huggingface.co/papers?q=pretrained%20VLA%20models) 在进行标准监督微调 (https://huggingface.co/papers?q=supervised%20finetuning)（SFT）时，往往难以有效提升性能并降低适配成本的问题。一些带有辅助训练目标 (https://huggingface.co/papers?q=auxiliary%20training%20objectives) 的先进微调方法可以提升性能并减少收敛步数 (https://huggingface.co/papers?q=convergence%20steps)。然而，这些方法通常会因辅助目标带来的额外损失而产生显著的计算开销。为同时实现辅助训练的能力增强与标准SFT的简洁性，我们在参数空间 (https://huggingface.co/papers?q=parameter%20space) 中对辅助目标SFT的两个目标进行解耦，即增强通用能力 (https://huggingface.co/papers?q=general%20capabilities) 与拟合任务特定的动作分布 (https://huggingface.co/papers?q=task-specific%20action%20distributions)。为达到此目标，我们仅需使用两种不同的训练策略，在一个小规模任务集上将模型训练至收敛，得到两个微调后的模型。这两个模型之间的参数差异即可解释为由辅助目标提供的能力向量 (https://huggingface.co/papers?q=capability%20vectors)。随后，将这些向量与预训练参数合并，形成一个能力增强的元模型 (https://huggingface.co/papers?q=meta%20model)。更进一步，当标准SFT中加入轻量级的正交正则化损失 (https://huggingface.co/papers?q=orthogonal%20regularization%20loss) 时，合并后的模型能够达到与辅助微调基线方法相当的性能，同时降低了计算开销。内部与外部实验表明，我们的能力向量 (https://huggingface.co/papers?q=capability%20vectors) (1) 在不同模型上均有效且通用，(2) 能够开箱即用地泛化到新环境与新本体形态。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10903) 查看 PDF (https://arxiv.org/pdf/2605.10903) 项目页面 (https://capvector.github.io/) GitHub2 (https://github.com/OpenHelix-Team/CapVector) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10903)

通过智能代理获取此论文：

hf papers read 2605.10903

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 1

haofuly/capvector_models_collection 机器人学• 更新于约3小时前 (https://huggingface.co/haofuly/capvector_models_collection)

引用此论文的数据集 0

尚无数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10903 即可从本页面链接过去。

引用此论文的 Spaces 0

尚无 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10903 即可从本页面链接过去。

包含此论文的合集 0

尚无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可从本页面链接过去。

相似文章

D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架

arXiv cs.AI

D-VLA 提出了一种高并发分布式异步强化学习框架，用于视觉-语言-动作模型，采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。

Vokenization：面向视觉与语言的多模态学习

ML at Berkeley

本文介绍了“Vokenization”，这是一种多模态学习技术，通过利用弱监督将视觉数据与语言标记联系起来，从而架起计算机视觉与自然语言处理之间的桥梁。文章将其与 GPT-3 和 BERT 等纯文本模型进行了对比，强调了视觉定位如何提升语言理解能力。

ReAD：面向大型语言模型的强化引导能力蒸馏

arXiv cs.CL

本文提出了 ReAD，这是一种强化引导的能力蒸馏框架，通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比，该方法在提升下游效用的同时，减少了有害溢出。

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

BalCapRL：一种用于基于强化学习的 MLLM 图像描述生成的平衡框架