Video2LoRA: 视觉-语言模型的参数化视频内化
摘要
本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。
查看缓存全文
缓存时间: 2026/06/05 06:07
论文页面 - Video2LoRA: 面向视觉-语言模型的参数化视频内化
来源: https://huggingface.co/papers/2606.04351
摘要
Video2LoRA 通过从视频表示中预测低秩适配权重,实现视觉-语言模型的高效视频处理,在降低计算成本的同时保持视频忠实输出。
在视觉-语言模型中处理视频成本高昂:每一帧占据数百个 token,且推理成本随每一帧和每一次重复查询而成倍增长。我们提出 Video2LoRA (https://huggingface.co/papers?q=LoRA),一种参数化视频内化方法。一个感知器超网络 (https://huggingface.co/papers?q=perceiver%20hypernetwork) 逐层读取冻结 VLM 编码视频时产生的中间表示 (https://huggingface.co/papers?q=intermediate%20representations),并在单次前向传播中生成一个低秩适配 (https://huggingface.co/papers?q=Low-Rank%20Adaptation) (LoRA (https://huggingface.co/papers?q=LoRA)) 适配器。与需要迭代梯度更新的标准 LoRA (https://huggingface.co/papers?q=LoRA) 微调不同,Video2LoRA (https://huggingface.co/papers?q=LoRA) 直接从视频中预测这些权重。针对 SmolVLM2 500M 和 2.2B 模型在视频摘要 (https://huggingface.co/papers?q=video%20summarization) 和字幕生成 (https://huggingface.co/papers?q=captioning) 任务上训练后,Video2LoRA (https://huggingface.co/papers?q=LoRA) 使同一冻结 VLM 仅凭适配器即可回答查询,查询时上下文中不包含任何视觉 token (https://huggingface.co/papers?q=visual%20tokens)。在两种模型规模下的全部五个字幕生成 (https://huggingface.co/papers?q=captioning) 基准测试中,以及八个视频问答 (https://huggingface.co/papers?q=video%20question%20answering) 基准-规模组合中的七个,Video2LoRA (https://huggingface.co/papers?q=LoRA) 在统计上不逊于且等效于直接视频上下文推理。尽管仅使用 12 帧、384px 分辨率训练,它在多达 1,024 帧和 1024px 分辨率下仍保持稳定,而直接视频上下文推理在此情况下经常退化。在此范围内,它将应答时视觉 token 负载降低多达 1,500 倍,查询 TTFT (https://huggingface.co/papers?q=query%20TTFT) 降低 6-80 倍,同时保持视频忠实输出。我们还发现,针对非重叠视频片段独立生成的适配器可在秩空间 (https://huggingface.co/papers?q=rank%20space) 中组合,这为分块长视频内化提供了一条可行路径。
查看 arXiv 页面 (https://arxiv.org/abs/2606.04351)查看 PDF (https://arxiv.org/pdf/2606.04351)项目页面 (https://video2lora.github.io/)GitHub1 (https://github.com/MananSuri27/video2lora)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04351)
在您的 agent 中获取此论文:
hf papers read 2606\.04351
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 1
MananSuri27/Video2LoRA-SmolVLM-ckpts 更新于约 4 小时前 (https://huggingface.co/MananSuri27/Video2LoRA-SmolVLM-ckpts)
引用此论文的数据集 0
无数据集关联此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.04351 以将其链接至此页面。
引用此论文的 Space 0
无 Space 关联此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.04351 以将其链接至此页面。
包含此论文的收藏 0
无收藏包含此论文
请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以将其链接至此页面。
相似文章
Hybrid-LoRA:桥接全微调与低秩适应的后训练方法
Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。
LLaVA-OneVision-2:迈向下一代感知智能
LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。
RDP LoRA:基于几何轨迹的大语言模型参数高效适配层选择方法
RDP-LoRA 通过几何轨迹分析与 Ramer-Douglas-Peucker 算法,自动挑出对参数高效微调最关键的层,效果优于全层及随机 LoRA 基线。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
BaLoRA:大规模模型的贝叶斯低秩适应
BaLoRA 引入了低秩适应(LoRA)的贝叶斯扩展,通过缩小与全量微调之间的差距,提供校准良好的不确定性估计并提高预测准确性。