video-summarization

标签

Cards List
#video-summarization

多视频摘要中多模态大语言模型位置偏差的系统性评估

arXiv cs.CL · 昨天 缓存

吉林大学研究人员对多模态大语言模型(MLLMs)在多视频摘要任务中的位置偏差进行了系统性评估,基于 ActivityNet 和新闻视频构建了评测基准,并采用覆盖率、方向性位置偏差(DPB)和中间-边缘差距(MEG)等指标对九个模型进行了全面评估。结果表明,位置效应因领域和模型而异,且增加视觉输入或生成预算并不能统一消除这种不平衡现象。

0 人收藏 0 人点赞
#video-summarization

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers · 2天前 缓存

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈