captioning

标签

Cards List
#captioning

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers · 2天前 缓存

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈