多视频摘要中多模态大语言模型位置偏差的系统性评估
摘要
吉林大学研究人员对多模态大语言模型(MLLMs)在多视频摘要任务中的位置偏差进行了系统性评估,基于 ActivityNet 和新闻视频构建了评测基准,并采用覆盖率、方向性位置偏差(DPB)和中间-边缘差距(MEG)等指标对九个模型进行了全面评估。结果表明,位置效应因领域和模型而异,且增加视觉输入或生成预算并不能统一消除这种不平衡现象。
查看缓存全文
缓存时间: 2026/06/05 02:16
# 多视频摘要中MLLMs位置偏差的系统性评估 来源:https://arxiv.org/html/2606.04596 Huangchen Xu¹,Yuan Wu¹,\*,Yi Chang¹,²,³,\* ¹吉林大学人工智能学院 ²吉林大学知识驱动人机智能工程研究中心 ³吉林大学未来科学国际中心 xuhc9924@mails\.jlu\.edu\.cn (https://arxiv.org/html/2606.04596v1/mailto:[email protected]),yuanwu@jlu\.edu\.cn (https://arxiv.org/html/2606.04596v1/mailto:[email protected]),yichang@jlu\.edu\.cn (https://arxiv.org/html/2606.04596v1/mailto:[email protected]) ###### 摘要 多模态大语言模型(MLLMs)被越来越广泛地应用于视频理解任务,但其在多视频输入场景下的可靠性仍未得到充分研究。本文研究多视频摘要中的位置偏差现象——即即使视频内容本身不变,单个视频的摘要质量也会随其输入位置的变化而改变。我们基于 ActivityNet 和新闻视频数据集构建了一个基准,涵盖烹饪、家庭、休闲和新闻四个场景类别,包含二视频和四视频两种输入规模。我们评估了九个开源及专有 MLLMs,并使用三个互补指标衡量位置效应:覆盖率(Coverage)、方向性位置偏差(DPB)和中间-边缘差距(MEG)。实验结果表明,位置效应因领域和模型而异:即使中间位置表现较差,有符号的方向性偏差也可能接近于零;增加视觉预算或生成预算并不能均匀地消除这种不平衡。我们进一步分析了提示级别的缓解方法。综合来看,实验结果表明多视频摘要对输入协议和位置依然敏感,这促使我们开发更具鲁棒性的位置无关多模态系统。 多视频摘要中MLLMs位置偏差的系统性评估 Huangchen Xu¹,Yuan Wu¹,\*,Yi Chang¹,²,³,\* ¹吉林大学人工智能学院 ²吉林大学知识驱动人机智能工程研究中心 ³吉林大学未来科学国际中心 xuhc9924@mails\.jlu\.edu\.cn (https://arxiv.org/html/2606.04596v1/mailto:[email protected]),yuanwu@jlu\.edu\.cn (https://arxiv.org/html/2606.04596v1/mailto:[email protected]),yichang@jlu\.edu\.cn (https://arxiv.org/html/2606.04596v1/mailto:[email protected]) ## 1 引言 视频摘要旨在将视频内容压缩为更简短但信息丰富的表示,同时保留关键信息和时序连贯性 Kansal et al.\(2023 (https://arxiv.org/html/2606.04596#bib.bib1)\)。随着多模态大语言模型(MLLMs)处理视频输入的能力不断增强,它们已成为开放式视频摘要的重要基础。近期基准测试已对 MLLMs 在长视频理解 Zhou et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib4)\) 和视频摘要 Jung and Kim \(2025 (https://arxiv.org/html/2606.04596#bib.bib6)\) 方面进行了评估。与此同时,新兴的*多视频*基准开始将关注点转向包含多个视频的输入,但它们主要针对理解、感知或推理任务,而非摘要生成 Peng et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib50)\);Bai et al.\(2026 (https://arxiv.org/html/2606.04596#bib.bib51)\)。*多视频摘要*方面的研究相对匮乏——在该任务中,模型需要在同一输入中为每个视频生成一段对齐的摘要。 其中一个核心问题是**位置偏差**,即模型性能随输入顺序变化,而与视频内容本身无关。在自然语言处理领域,已有研究表明大语言模型在新闻摘要中倾向于关注靠前的内容 Grenander et al.\(2019 (https://arxiv.org/html/2606.04596#bib.bib7)\),并在长上下文场景中表现出"迷失在中间"的现象 Liu et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib8)\)。近期多模态研究也在多图像理解 Tian et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib9)\) 和视频探测基准 Xia et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib10)\) 中发现了类似的位置效应。然而,这些方案主要测试模型能否在目标证据位置变化后仍能检索或利用该证据。多视频摘要面临的挑战有所不同:模型必须将每段摘要与正确的视频绑定,同时在多个输入位置之间平衡有限的摘要细节。 本文对多视频摘要中的位置偏差进行了系统性研究。我们基于 ActivityNet Heilbron et al.\(2015 (https://arxiv.org/html/2606.04596#bib.bib11)\) 和新闻视频数据集 Whitehead et al.\(2018 (https://arxiv.org/html/2606.04596#bib.bib12)\) 构建了一个基准,涵盖四个场景类别:**烹饪**、**家庭**、**休闲**和**新闻**。我们采用循环排列设计,对两两输入和四视频输入进行评估,使每个视频恰好出现在每个位置一次。由于词法重叠指标不足以评估这一高度抽象的任务,我们采用数据集自适应的基于参考的覆盖率:ActivityNet 衍生领域使用 LLM-as-a-Judge 协议评分,而新闻领域则使用抽取式参考片段覆盖率。我们进一步报告覆盖率(Coverage)、方向性位置偏差(DPB)和中间-边缘差距(MEG),以区分整体信息保留、靠前与靠后偏好以及中间位置弱势三个维度。匿名代码和数据可在 https://anonymous.4open.science/r/annoym07 获取。 本文的贡献如下: 1. **基准与评估协议**:我们构建了涵盖**烹饪**、**家庭**、**休闲**和**新闻**的基准,并引入了衡量覆盖率(Coverage)、方向性位置偏差(DPB)和中间-边缘差距(MEG)的评估协议,将靠前与靠后偏好与中间位置弱势区分开来。 2. **模型与领域相关的位置效应**:我们评估了九个开源及专有 MLLMs,发现位置效应因模型和领域而异。若干设置中 DPB 接近于零,但 MEG 为负值,这一现象仅靠方向性偏差指标会被忽略。 3. **鲁棒性检验与缓解分析**:我们考察了视觉预算、请求摘要长度、边界格式、提示位置以及缓解策略对位置效应的影响。 ## 2 相关工作 ### 2.1 位置偏差 位置偏差是指模型对信息或候选项在输入中所处位置的敏感性,超出了其内容本身的影响。在文本场景中,已有研究探讨了摘要中的前置或位置偏差 Grenander et al.\(2019 (https://arxiv.org/html/2606.04596#bib.bib7)\);Schilcher et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib13)\)、长上下文问答和检索中的"迷失在中间"效应 Liu et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib8)\),以及长文本摘要中依赖位置的忠实度问题 Wan et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib27)\)。当 LLMs 被用作评判者、排序器或推荐器时,同样存在类似的顺序效应 Wang et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib18)\);Shi et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib23)\);Koo et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib29)\);Hou et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib24)\)。这些研究催生了一系列缓解策略,从训练或注意力机制方法,到轻量级推理时控制手段(如顺序扰动和注意力引导提示)Wang et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib18)\);Zhang et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib25)\);Wan et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib27)\);Tian et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib9)\)。 在多模态场景中,近期研究也开始识别类似效应。Tian et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib9)\) 表明,对图像重新排序会显著影响多图像推理;而 Video-LevelGauge Xia et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib10)\) 通过探测任务研究视频 LLMs,将相关视觉证据置于不同位置进行测试。本文在任务结构和评估目标上均有所不同:我们不是测试模型能否从移动位置的探测中检索局部证据,而是研究模型在不同输入顺序下为多个视频生成对齐摘要时能否保持均衡的信息覆盖。 ### 2.2 摘要的自动评估 摘要的自动评估长期以来依赖词法重叠指标,如 BLEU、ROUGE 和 METEOR Chang et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib61)\);Papineni et al.\(2002 (https://arxiv.org/html/2606.04596#bib.bib32)\);Lin \(2004 (https://arxiv.org/html/2606.04596#bib.bib19)\);Banerjee and Lavie \(2005 (https://arxiv.org/html/2606.04596#bib.bib20)\),以及后来基于嵌入的指标如 BERTScore Zhang et al.\(2020 (https://arxiv.org/html/2606.04596#bib.bib21)\)。这些指标成本低且可扩展,但它们主要衡量文本相似度,并不能直接评估生成摘要是否保留了参考中的特定信息。 近期研究探索了更具语义性的评估协议。GPTScore 和 G-Eval 等基于 LLM 的评估器利用大语言模型按照灵活的任务特定标准对生成文本进行评判 Fu et al.\(2024 (https://arxiv.org/html/2606.04596#bib.bib31)\);Liu et al.\(2023 (https://arxiv.org/html/2606.04596#bib.bib30)\)。QuestEval 等基于问答的指标通过问题生成与问题回答来评估摘要质量 Rebuffel et al.\(2021 (https://arxiv.org/html/2606.04596#bib.bib52)\),最近的视频摘要评估则进一步采用多模态问答来评估覆盖率、事实性和时序性 Jung and Kim \(2025 (https://arxiv.org/html/2606.04596#bib.bib6)\)。这些方法能提供比表面重叠更丰富的诊断信息,但每篇摘要可能需要多次模型调用,在对大量视频、排列顺序和位置进行逐位置评估时成本较高。对于简短的新闻摘要,抽取式片段分析通过衡量短语级别的部分重叠提供了另一个有用视角 Grusky et al.\(2018 (https://arxiv.org/html/2606.04596#bib.bib46)\)。当参考摘要简洁且包含固定命名实体或事件短语时,这一方法尤为适用。 ## 3 评估 参见图注图 1:**评估流程概览**。我们为两两输入和列表式多视频输入构建循环排列,生成对齐的逐视频摘要,并使用三个互补指标评估位置效应。 图 1 (https://arxiv.org/html/2606.04596#S3.F1) 展示了我们的评估流程。我们构建多视频输入,提示模型生成对齐的逐视频摘要,并通过在多个设置(包括模型家族、领域、视频时长和视觉预算变体)下使用循环排列来评估位置效应。随后,我们使用三个指标量化位置效应:**覆盖率**(Coverage)、**方向性位置偏差**(DPB)和**中间-边缘差距**(MEG)。 ### 3.1 数据收集 我们基于两个带有人工撰写参考摘要的公开数据集构建基准,涵盖四个场景类别:**烹饪**、**家庭**、**休闲**和**新闻**。**新闻**类别使用新闻视频数据集 Whitehead et al.\(2018 (https://arxiv.org/html/2606.04596#bib.bib12)\)。其余三个类别从 ActivityNet Heilbron et al.\(2015 (https://arxiv.org/html/2606.04596#bib.bib11)\) 中采样:**烹饪**对应饮食与烹饪活动,**家庭**对应家务活动,**休闲**对应社交、放松和娱乐活动。这些类别代表了常见的在线视频使用场景。已有研究表明,用户在推荐驱动的多视频浏览中经常接触视频流或视频集合,在线视频平台被用于教程学习、休闲观看和时事资讯,且新闻消费越来越多地通过社交平台进行 Smith et al.\(2018 (https://arxiv.org/html/2606.04596#bib.bib48)\);Covington et al.\(2016 (https://arxiv.org/html/2606.04596#bib.bib49)\)。 为研究位置效应与视频时长的交互影响,我们将输入分为短视频(0–1 分钟)和较长视频(1–2 分钟)。**烹饪**和**新闻**仅包含短视频设置,而**家庭**和**休闲**同时包含短视频和较长视频设置。对于每种领域-时长配置,我们随机采样 27 个视频组。四视频组在每个主题-时长配置内互不重叠,而两两输入和四视频输入设置在同一主题内可能共享视频。数据集共包含 708 个唯一视频。尽管唯一视频数量有限,但基于循环设计的评估可产生数千个顺序受控的实例,在可控的推理预算内支持系统性分析。 ### 3.2 摘要生成与对齐 **模型。** 我们同时评估专有和开源 MLLMs。主要对比模型包括:InternVL3.5-8B、InternVL3.5-14B Wang et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib53)\)、Qwen3-VL-8B、Qwen3-VL-30B-A3B Bai et al.\(2025 (https://arxiv.org/html/2606.04596#bib.bib39)\)、MiniCPM-o-4.5 Cui et al.\(2026 (https://arxiv.org/html/2606.04596#bib.bib54)\)、GLM-4.1V-9B-Thinking Team et al.\(2026 (https://arxiv.org/html/2606.04596#bib.bib55)\)、MiMo-VL-7B-RL Xiaomi \(2025 (https://arxiv.org/html/2606.04596#bib.bib56)\)、Gemini-3.1-Pro Google DeepMind \(2026 (https://arxiv.org/html/2606.04596#bib.bib59)\) 和 GPT-5.4 OpenAI \(2026 (https://arxiv.org/html/2606.04596#bib.bib60)\)。 **输入规模。** 我们关注两种输入规模:包含两个视频的两两输入($P=2$)和包含四个视频的列表式输入($P=4$)。对于每种规模,我们采用循环排列设计,使每个视频恰好出现在每个位置一次。这既支持视频内部的均衡位置分析,又将排列数量控制在可处理范围内。我们使用领域-规模符号(如 Cooking-2、News-4)表示特定领域在给定输入视频数量下的实验。 **输入配置。** 所有主要实验采用相同的任务协议:首先给出任务指令和输出格式,然后按循环顺序给出带标签的视频片段,连续片段之间插入空白边界帧。除特别说明外,我们使用 `top_p=1.0`,温度为 $0.9$。我们根据参考摘要的粒度设置请求的摘要长度:ActivityNet 衍生的参考摘要平均每个视频约 3.4 句,因此每个视频请求四句;新闻参考摘要平均约 1.2 句,因此每个视频请求两句。对于基于帧的输入,我们均匀采样帧:短视频每个视频采样 16 帧,较长的 ActivityNet 视频在支持的情况下采样 24 帧。默认分辨率为 $448\times448$。 **逐视频摘要对齐。** 我们采用两阶段对齐策略。首先,我们指示模型使用固定模板(如 `[video0] ...,[video1] ...`)生成逐视频摘要,并通过模式匹配提取各段内容。当输出偏离模板时,我们采用回退语义对齐:将参考摘要和模型输出分割为句子,计算句子级语义相似度,并将每个生成的句子分配给相似度最高的视频。分配给同一视频的句子随后拼接为对齐的逐视频摘要。 ### 3.3 评估指标 设 $P$ 为输入视频数量,$p\in\{1,\dots,P\}$ 为位置槽。我们用 $C_{i,p}$ 表示实例 $i$ 中位置 $p$ 处视频的覆盖率得分。 #### 3.3.1 覆盖率 覆盖率衡量的是
相似文章
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
RefereeBench:视频多模态大模型是否已准备好担任多项运动的裁判
RefereeBench 引入了首个大规模基准测试,包含 925 个精心策划的体育视频和 6,475 个问答对,用于评估视频多模态大模型是否能可靠地充当多项运动的裁判。对最先进模型的评估表明,现有多模态大模型表现不佳(准确率≤60%),尽管它们具有通用视频理解能力,但在规则应用和时间定位方面存在困难。
Artifact-Bench:评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力
Artifact-Bench是一个综合性基准,用于评估多模态大语言模型在检测和分析AI生成视频伪影方面的表现,揭示了它们的显著局限性以及与人类感知的错位。
TeachObs:一个经过人工验证的多模态教学观察与模型评估基准
TeachObs引入了一个经过人工验证的多模态教学观察基准,包含30个课堂视频,这些视频标注了片段级别的二元编码和课程级别的专家评分,并评估了五个前沿LLM在三个轨道上的表现,发现没有单一模型能持续优于其他模型,并且模型评估对程序清晰的课程给出了过高评价。
OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。