video-summarization

#video-summarization

多视频摘要中多模态大语言模型位置偏差的系统性评估

arXiv cs.CL ↗ · 昨天缓存

吉林大学研究人员对多模态大语言模型（MLLMs）在多视频摘要任务中的位置偏差进行了系统性评估，基于 ActivityNet 和新闻视频构建了评测基准，并采用覆盖率、方向性位置偏差（DPB）和中间-边缘差距（MEG）等指标对九个模型进行了全面评估。结果表明，位置效应因领域和模型而异，且增加视觉输入或生成预算并不能统一消除这种不平衡现象。

0 人收藏 0 人点赞

#video-summarization

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍Video2LoRA，一种直接从视频表示预测低秩适配（LoRA）权重的方法，能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍，查询TTFT降低6-80倍，同时在视频摘要和字幕生成基准上保持性能。

0 人收藏 0 人点赞

video-summarization

多视频摘要中多模态大语言模型位置偏差的系统性评估

Video2LoRA: 视觉-语言模型的参数化视频内化

提交意见反馈