CapVector:面向视觉-语言-动作模型的参数空间可迁移能力向量学习
摘要
本文介绍了 CapVector,这是一种将辅助训练目标与视觉-语言-动作模型的标准监督微调解耦的方法。通过提取可迁移能力向量并引入正交正则化,该方法在显著提升模型性能与泛化能力的同时,大幅降低了计算开销。
查看缓存全文
缓存时间: 2026/05/12 10:52
论文页面 - CapVector: 学习参数空间中可迁移的能力向量,用于视觉-语言-动作模型
来源: https://huggingface.co/papers/2605.10903
摘要
一种新方法将辅助训练目标与标准监督微调解耦,通过能力向量合并与正交正则化,在增强模型能力的同时降低计算开销。
本文提出了一种新方法,旨在解决预训练VLA模型 (https://huggingface.co/papers?q=pretrained%20VLA%20models) 在进行标准监督微调 (https://huggingface.co/papers?q=supervised%20finetuning)(SFT)时,往往难以有效提升性能并降低适配成本的问题。一些带有辅助训练目标 (https://huggingface.co/papers?q=auxiliary%20training%20objectives) 的先进微调方法可以提升性能并减少收敛步数 (https://huggingface.co/papers?q=convergence%20steps)。然而,这些方法通常会因辅助目标带来的额外损失而产生显著的计算开销。为同时实现辅助训练的能力增强与标准SFT的简洁性,我们在参数空间 (https://huggingface.co/papers?q=parameter%20space) 中对辅助目标SFT的两个目标进行解耦,即增强通用能力 (https://huggingface.co/papers?q=general%20capabilities) 与拟合任务特定的动作分布 (https://huggingface.co/papers?q=task-specific%20action%20distributions)。为达到此目标,我们仅需使用两种不同的训练策略,在一个小规模任务集上将模型训练至收敛,得到两个微调后的模型。这两个模型之间的参数差异即可解释为由辅助目标提供的能力向量 (https://huggingface.co/papers?q=capability%20vectors)。随后,将这些向量与预训练参数合并,形成一个能力增强的元模型 (https://huggingface.co/papers?q=meta%20model)。更进一步,当标准SFT中加入轻量级的正交正则化损失 (https://huggingface.co/papers?q=orthogonal%20regularization%20loss) 时,合并后的模型能够达到与辅助微调基线方法相当的性能,同时降低了计算开销。内部与外部实验表明,我们的能力向量 (https://huggingface.co/papers?q=capability%20vectors) (1) 在不同模型上均有效且通用,(2) 能够开箱即用地泛化到新环境与新本体形态。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10903) 查看 PDF (https://arxiv.org/pdf/2605.10903) 项目页面 (https://capvector.github.io/) GitHub2 (https://github.com/OpenHelix-Team/CapVector) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10903)
通过智能代理获取此论文:
hf papers read 2605.10903
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 1
haofuly/capvector_models_collection 机器人学• 更新于约3小时前 (https://huggingface.co/haofuly/capvector_models_collection)
引用此论文的数据集 0
尚无数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.10903 即可从本页面链接过去。
引用此论文的 Spaces 0
尚无 Space 关联此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.10903 即可从本页面链接过去。
包含此论文的合集 0
尚无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 即可从本页面链接过去。
相似文章
D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架
D-VLA 提出了一种高并发分布式异步强化学习框架,用于视觉-语言-动作模型,采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。
Vokenization:面向视觉与语言的多模态学习
本文介绍了“Vokenization”,这是一种多模态学习技术,通过利用弱监督将视觉数据与语言标记联系起来,从而架起计算机视觉与自然语言处理之间的桥梁。文章将其与 GPT-3 和 BERT 等纯文本模型进行了对比,强调了视觉定位如何提升语言理解能力。
ReAD:面向大型语言模型的强化引导能力蒸馏
本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v
BalCapRL:一种用于基于强化学习的 MLLM 图像描述生成的平衡框架
本文介绍了 BalCapRL,这是一种针对多模态大语言模型(MLLM)的平衡强化学习框架,旨在联合优化图像描述生成中的准确性、覆盖率和语言质量。通过奖励解耦和长度条件屏蔽来解决实用性与流畅性之间的权衡,该方法在性能上优于现有方法。