captioning

#captioning

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍Video2LoRA，一种直接从视频表示预测低秩适配（LoRA）权重的方法，能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍，查询TTFT降低6-80倍，同时在视频摘要和字幕生成基准上保持性能。

0 人收藏 0 人点赞