Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers 论文

摘要

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。

在视觉-语言模型中处理视频代价高昂:每帧占用数百个令牌,推理成本随每帧和每次重复查询而增加。我们提出Video2LoRA,一种参数化视频内化方法。一个感知器超网络在冻结的VLM编码视频时逐层读取中间表示,并在一次前向传播中生成低秩适配(LoRA)适配器。与需要迭代梯度更新的标准LoRA微调不同,Video2LoRA直接从视频预测这些权重。针对SmolVLM2 500M和2.2B在视频摘要和字幕生成任务上训练,Video2LoRA使得相同的冻结VLM仅凭适配器即可回答查询,在查询时上下文中零视觉令牌。Video2LoRA在两种模型规模的所有五个字幕生成基准上统计上非劣效且等效于直接视频上下文推理,在八个视频问答基准-规模配对中的七个上也如此。尽管仅在12帧384px上训练,它在高达1024帧和1024px时保持稳定,而直接视频上下文推理在此条件下常常退化。在整个扫描中,它将回答时的视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时保持视频忠实输出。我们还发现,非重叠视频段的独立生成适配器可以在秩空间组合,这提示了一条分块长视频内化的路径。
查看原文
查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - Video2LoRA: 面向视觉-语言模型的参数化视频内化

来源: https://huggingface.co/papers/2606.04351

摘要

Video2LoRA 通过从视频表示中预测低秩适配权重,实现视觉-语言模型的高效视频处理,在降低计算成本的同时保持视频忠实输出。

在视觉-语言模型中处理视频成本高昂:每一帧占据数百个 token,且推理成本随每一帧和每一次重复查询而成倍增长。我们提出 Video2LoRA (https://huggingface.co/papers?q=LoRA),一种参数化视频内化方法。一个感知器超网络 (https://huggingface.co/papers?q=perceiver%20hypernetwork) 逐层读取冻结 VLM 编码视频时产生的中间表示 (https://huggingface.co/papers?q=intermediate%20representations),并在单次前向传播中生成一个低秩适配 (https://huggingface.co/papers?q=Low-Rank%20Adaptation) (LoRA (https://huggingface.co/papers?q=LoRA)) 适配器。与需要迭代梯度更新的标准 LoRA (https://huggingface.co/papers?q=LoRA) 微调不同,Video2LoRA (https://huggingface.co/papers?q=LoRA) 直接从视频中预测这些权重。针对 SmolVLM2 500M 和 2.2B 模型在视频摘要 (https://huggingface.co/papers?q=video%20summarization) 和字幕生成 (https://huggingface.co/papers?q=captioning) 任务上训练后,Video2LoRA (https://huggingface.co/papers?q=LoRA) 使同一冻结 VLM 仅凭适配器即可回答查询,查询时上下文中不包含任何视觉 token (https://huggingface.co/papers?q=visual%20tokens)。在两种模型规模下的全部五个字幕生成 (https://huggingface.co/papers?q=captioning) 基准测试中,以及八个视频问答 (https://huggingface.co/papers?q=video%20question%20answering) 基准-规模组合中的七个,Video2LoRA (https://huggingface.co/papers?q=LoRA) 在统计上不逊于且等效于直接视频上下文推理。尽管仅使用 12 帧、384px 分辨率训练,它在多达 1,024 帧和 1024px 分辨率下仍保持稳定,而直接视频上下文推理在此情况下经常退化。在此范围内,它将应答时视觉 token 负载降低多达 1,500 倍,查询 TTFT (https://huggingface.co/papers?q=query%20TTFT) 降低 6-80 倍,同时保持视频忠实输出。我们还发现,针对非重叠视频片段独立生成的适配器可在秩空间 (https://huggingface.co/papers?q=rank%20space) 中组合,这为分块长视频内化提供了一条可行路径。

查看 arXiv 页面 (https://arxiv.org/abs/2606.04351)查看 PDF (https://arxiv.org/pdf/2606.04351)项目页面 (https://video2lora.github.io/)GitHub1 (https://github.com/MananSuri27/video2lora)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04351)

在您的 agent 中获取此论文:

hf papers read 2606\.04351

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 1

MananSuri27/Video2LoRA-SmolVLM-ckpts 更新于约 4 小时前 (https://huggingface.co/MananSuri27/Video2LoRA-SmolVLM-ckpts)

引用此论文的数据集 0

无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.04351 以将其链接至此页面。

引用此论文的 Space 0

无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.04351 以将其链接至此页面。

包含此论文的收藏 0

无收藏包含此论文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以将其链接至此页面。

相似文章

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

LLaVA-OneVision-2:迈向下一代感知智能

Hugging Face Daily Papers

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。