当没有正确答案时:诊断视频理解中多模态大语言模型的缺失答案检测

arXiv cs.AI 论文

摘要

本文研究了多模态大语言模型(MLLMs)在视频理解任务中检测正确答案缺失的能力,发现模型系统性地失败,倾向于选择合理的干扰项而非识别出没有有效选项。该失败在时序推理和密集帧采样中更为严重,而思维链提示仅能部分缓解问题。

arXiv:2606.08239v1 Announce Type: new 摘要:多模态大语言模型(MLLMs)在视频理解方面取得了显著进展,但其响应的可靠性仍未被充分探索。本文对视频理解中多模态大语言模型的缺失答案检测进行了诊断性研究,其中正确答案被故意排除在候选集之外,可靠模型应能识别出没有有效选项。我们在三种设置下评估了缺失答案检测行为:带有“None of the Above”选项的多项选择题、带有检测指令的开放生成以及无任何指导的标准评估。在多种模型和基准测试中,我们发现MLLMs绝大多数情况下选择合理的干扰项,而不是检测到缺失答案。这种失败在时序推理任务中更为明显,且随着帧采样密度的增加而恶化。我们进一步探索了思维链提示作为缓解策略,发现虽然它显著提高了检测率,但性能仍不令人满意,表明仅基于提示的策略不足以完全解决这一限制。这些发现揭示了缺失答案检测中的系统性失败,并强调了在多模态系统中引入显式检测机制的必要性。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:55

# 当正确答案不存在:诊断多模态大语言模型在视频理解中的缺失答案检测
来源:https://arxiv.org/html/2606.08239
达勒姆市 北卡罗来纳州 美国

###### 摘要

多模态大语言模型在视频理解领域取得了显著进展,但其响应的可靠性仍未得到充分探索。本文对多模态大语言模型在视频理解中的缺失答案检测进行了诊断性研究。在这种场景下,正确答案被有意从候选集中移除,一个可靠的模型应能识别出没有有效选项存在。我们在三种设置下评估缺失答案检测行为:添加“以上皆非”选项的多选题、带有检测指令的开放式生成,以及没有任何引导的标准评估。在多种模型和基准测试中,我们发现多模态大语言模型压倒性地选择看似合理的干扰项,而非检测出答案缺失。这种失败在时序推理任务中更为明显,并且随着帧采样密度的增加而恶化。我们进一步探索了思维链提示作为一种缓解策略,发现虽然它显著提高了检测率,但性能仍不尽如人意,这提示仅靠基于提示的策略不足以完全解决这一局限性。这些发现揭示了模型在缺失答案检测上的系统性失败,并凸显了在多模态系统中建立显式检测机制的必要性。

## 1 引言

多模态大语言模型[16 (https://arxiv.org/html/2606.08239#bib.bib8),3 (https://arxiv.org/html/2606.08239#bib.bib9),19 (https://arxiv.org/html/2606.08239#bib.bib11),23 (https://arxiv.org/html/2606.08239#bib.bib18),17 (https://arxiv.org/html/2606.08239#bib.bib19),13 (https://arxiv.org/html/2606.08239#bib.bib7),12 (https://arxiv.org/html/2606.08239#bib.bib14)]在视频理解方面取得了显著进展,在广泛的基准测试中表现出色[5 (https://arxiv.org/html/2606.08239#bib.bib20),9 (https://arxiv.org/html/2606.08239#bib.bib26),18 (https://arxiv.org/html/2606.08239#bib.bib23)]。然而,这些基准测试共享一个常见假设:候选集始终包含正确答案。在这种假设下,尚不清楚模型是真正理解了视频内容,还是仅仅从候选项中选择了最可能的选项。为了探究这一点,我们采用了一种诊断方法:故意从候选集中移除正确答案。如果模型真正理解了视频和问题,它应该能够识别出没有有效选项存在,而不是默认选择最可能的干扰项。我们将这种诊断设置称为**缺失答案检测**。图1 (https://arxiv.org/html/2606.08239#S1.F1)展示了一个示例。

附图说明图 1:缺失答案检测示例。可靠的多模态大语言模型应能识别出没有有效选项存在,而不是选择一个干扰项。虽然缺失答案检测已在纯文本和基于图像的设置中得到探索[15 (https://arxiv.org/html/2606.08239#bib.bib31),6 (https://arxiv.org/html/2606.08239#bib.bib30),10 (https://arxiv.org/html/2606.08239#bib.bib5)],但在视频理解领域,由于时序推理和多帧整合带来了额外的复杂性,这一问题尚未被研究。为了研究这个问题,我们从候选集中移除真实答案,同时保持视频和问题不变,并在三种互补的设置下评估模型:(1) 添加“以上皆非”选项的多选题;(2) 带有显式指令的开放式生成,允许模型表示没有选项正确;(3) 在标准协议下的无提示评估,测试模型是否能在没有任何引导的情况下自发检测到正确答案的缺失。在一组多样化的模型和基准测试中,我们诊断出一致的失败模式,并探索了思维链提示作为一种潜在的缓解策略。我们的关键发现总结如下:

- • 多模态大语言模型压倒性地选择看似合理的干扰项,而非检测出答案缺失,并且这种有限的检测能力在很大程度上依赖于显式的外部线索。
- • 在时序推理任务上,检测率大幅下降,因为时序相邻事件充当了高度可信的干扰项,掩盖了正确答案的缺失。
- • 更密集的帧采样反而使检测恶化,这表明更丰富的视觉输入加强了候选匹配,但抑制了对选项集的批判性评估。
- • 思维链提示通过鼓励针对每个选项与视频内容进行对比验证,显著提高了检测率,但性能仍不尽如人意。

## 2 相关工作

视频理解与多模态大语言模型。多模态大语言模型[16 (https://arxiv.org/html/2606.08239#bib.bib8),3 (https://arxiv.org/html/2606.08239#bib.bib9),23 (https://arxiv.org/html/2606.08239#bib.bib18),17 (https://arxiv.org/html/2606.08239#bib.bib19),13 (https://arxiv.org/html/2606.08239#bib.bib7)]在多样化的视频理解基准测试中取得了强劲的性能[5 (https://arxiv.org/html/2606.08239#bib.bib20),18 (https://arxiv.org/html/2606.08239#bib.bib23),8 (https://arxiv.org/html/2606.08239#bib.bib25),7 (https://arxiv.org/html/2606.08239#bib.bib24)]。然而,越来越多的证据表明,高准确率可能并不反映真实的忠实理解。Asadi 等人[1 (https://arxiv.org/html/2606.08239#bib.bib28)]表明,多模态模型仅凭语言先验,无需任何视觉输入,就能取得有竞争力的基准分数。在视频领域,Yu 等人[22 (https://arxiv.org/html/2606.08239#bib.bib29)]和 Yoon 等人[21 (https://arxiv.org/html/2606.08239#bib.bib1)]通过检查模型在关键帧缺失或问题超出视频信息范围时是否能拒绝回答,进一步探究了模型的可靠性。这些工作都聚焦于问题本身不可回答的场景。我们则将缺失答案检测引入视频理解,研究模型是真正理解了视频内容还是仅仅选择了最可能的候选答案。

缺失答案检测。缺失答案检测已在纯文本设置中得到研究,Wang 等人[15 (https://arxiv.org/html/2606.08239#bib.bib31)]和 Tam 等人[11 (https://arxiv.org/html/2606.08239#bib.bib4)]表明,将正确选项替换为“以上皆非”会导致准确率大幅下降;Góral 等人[6 (https://arxiv.org/html/2606.08239#bib.bib30)]进一步证明,指令微调抑制而非促进了无效选项集的检测。在图像领域,Miyai 等人[10 (https://arxiv.org/html/2606.08239#bib.bib5)]将图像多模态大语言模型的不兼容答案集检测形式化,并表明模型压倒性地选择干扰项而不是识别出答案缺失。然而,这些研究局限于纯文本或基于图像的设置。我们将研究扩展到视频模态,并揭示了视频理解特有的失败模式。

## 3 实验设置

### 3.1 评估设置

基准设置。给定一个视频 \(V\)、一个问题 \(q\) 以及包含真实答案 \(c^*\) 的原始多选题候选集 \(C = \{c_1, \dots, c_k\}\),我们在标准协议下评估模型以获得基准准确率 \(ACC\)。

干预设置。为了研究缺失答案检测,我们通过移除真实答案构建干预候选集 \(\tilde{C} = C \setminus \{c^*\}\),同时保持视频和问题不变。然后我们在三种条件下评估模型。示例见附录 A.1 (https://arxiv.org/html/2606.08239#A1.SS1)。

(1) 多选题检测。我们在 \(\tilde{C}\) 中添加一个“以上皆非”(NOTA)选项,得到一个大小为 \(k\) 的候选集,其中 NOTA 作为正确答案并充当显式的检测线索。我们报告多选题检测率 \(MCDR\),即模型选择 NOTA 选项的实例比例。

(2) 开放式检测。我们向模型提供问题、干预候选集 \(\tilde{C}\) 以及一条指令,说明如果模型确定没有选项正确,可以回答“无”。该设置消除了选择偏差,并直接探究模型能否通过自由生成检测到答案缺失。我们报告开放式检测率 \(OEDR\),即模型明确表示没有选项正确的实例比例。

(3) 无提示检测。我们在标准评估协议下向模型展示干预候选集 \(\tilde{C}\),即仅要求模型从给定选项中选择一个答案,没有任何检测线索或指令。我们报告无提示检测率 \(UDR\),即模型自发检测到答案缺失的实例比例。

### 3.2 实现细节

我们评估了代表性的多模态大语言模型,涵盖专有模型[4 (https://arxiv.org/html/2606.08239#bib.bib6)]和开源模型[13 (https://arxiv.org/html/2606.08239#bib.bib7),16 (https://arxiv.org/html/2606.08239#bib.bib8),3 (https://arxiv.org/html/2606.08239#bib.bib9),2 (https://arxiv.org/html/2606.08239#bib.bib10),19 (https://arxiv.org/html/2606.08239#bib.bib11),20 (https://arxiv.org/html/2606.08239#bib.bib12),23 (https://arxiv.org/html/2606.08239#bib.bib18),17 (https://arxiv.org/html/2606.08239#bib.bib19),12 (https://arxiv.org/html/2606.08239#bib.bib14)],在 VideoMME[5 (https://arxiv.org/html/2606.08239#bib.bib20)]和 EgoSchema 验证集[9 (https://arxiv.org/html/2606.08239#bib.bib26)]上进行评估。除非另有说明,所有模型默认使用 64 帧的帧预算,并使用贪心解码以保证可重复性。实验默认在 NVIDIA L40S GPU 上运行,Qwen3-Omni-30B-A3B[14 (https://arxiv.org/html/2606.08239#bib.bib13)]除外,它在 NVIDIA H100 GPU 上评估。

## 4 实验结果

表 1:VideoMME 上的缺失答案检测性能。\(dagger\) 表示模型以 32 帧输入进行评估。表 2:EgoSchema 上的缺失答案检测性能。表 3:VideoMME 时序感知/时序推理子集上的缺失答案检测。### 4.1 检测行为分析

表 1 (https://arxiv.org/html/2606.08239#S4.T1) 和表 2 (https://arxiv.org/html/2606.08239#S4.T2) 报告了 VideoMME 和 EgoSchema 上的缺失答案检测结果。

多选题检测。尽管基线准确率较高,但所有模型的多选题检测率都显著偏低。我们检查了多选题检测设置下的置信度分布(附录 A.2 (https://arxiv.org/html/2606.08239#A1.SS2)),发现即使正确答案被移除,模型仍保持接近基线的置信度水平,分配给干扰项的概率质量显著高于 NOTA 选项。这揭示了系统性的过度自信:模型以几乎与选择正确答案时相同的确定性选择干扰项。按基线正确性进行分层(附录 A.3 (https://arxiv.org/html/2606.08239#A1.SS3))显示,模型在基线回答正确的问题上更有可能选择 NOTA,这表明检测与真实知识相关,而非随机猜测。然而,实际效果微乎其微:即使模型知道正确答案,它们仍然无法检测到该答案在候选集中的缺失。

开放式检测。大多数模型的开放式检测率始终低于多选题检测率,这表明当模型需要主动生成拒绝而非从候选项中选择时,其表现更加困难。即使被明确允许表示没有选项正确,模型仍压倒性地默认从提供的候选中选择,这可能反映了在多选题任务的大量训练中形成的强制选择偏差。一个显著的例外是 Qwen2.5-Omni,其开放式检测率达到了 61.7%;我们在附录 A.4 (https://arxiv.org/html/2606.08239#A1.SS4) 中讨论了这个异常值。

无提示检测。几乎所有模型的无提示检测率都接近 0%,这表明模型天生假设正确答案必然存在于提供的候选之中,几乎不会自发地质疑选项集的完整性。这一结果提示,在没有显式外部线索的情况下,模型缺乏识别有效答案缺失的内在能力。

### 4.2 时序任务中的检测

表 3 (https://arxiv.org/html/2606.08239#S4.T3) 报告了 VideoMME 时序感知和时序推理子集上的检测结果。在时序感知和时序推理子集上,大多数开源模型的多选题检测率和开放式检测率相比表 1 (https://arxiv.org/html/2606.08239#S4.T1) 中的总体结果都有显著下降。这表明时序任务对缺失答案检测构成了更大的挑战。我们假设这种退化源于时序任务中干扰项的性质:不正确的选项通常对应于时序相邻事件或因果相关的动作,这使它们天生就比非时序任务中的干扰项更可信。这种较高的可信度缩小了干扰项与缺失真实答案之间的感知差距,使模型更容易在选择最佳匹配候选项时犯错,而不是识别出没有有效选项存在。

附图说明图 2:VideoMME 上不同帧采样密度下的 ACC、MCDR 和 OEDR。
### 4.3 帧采样密度的影响

如图 2 (https://arxiv.org/html/2606.08239#S4.F2) 所示,随着采样帧数的增加,模型取得了更高的基线准确率。如果准确率的提升表明模型对正确答案有了更忠实的理解,那么更密集的采样应该也使模型能够更可靠地识别出正确答案在候选集中的缺失。然而,我们的实证结果显示了相反的趋势。多选题检测率和开放式检测率都随着采样更密集而持续下降,这表明即使模型更好地理解了视频内容,它们检测缺失答案的能力反而变弱了。这种分歧揭示了:更密集的视觉输入增强了模型将候选与视频证据进行匹配的能力,但同时抑制了批判性思维,而非提升了模型检测缺失正确答案的能力。

## 5 思维链作为缓解策略

上述诊断性发现引发了一个自然问题:提示策略能否缓解缺失答案检测的失败?我们研究了思维链提示作为一种潜在的干预措施,指令模型在做出最终答案之前,逐步推理每个候选选项是否与视频内容一致。详细提示可见附录 A.1 (https://arxiv.org/html/2606.08239#A1.SS1)。如表 4 (https://arxiv.org/html/2606.08239#S5.T4) 所示,思维链提示对 InternVL3.5 和 Qwen3-VL 都带来了显著的改进,表明显式引导模型针对每个选项与视频内容进行评估,可以显著恢复检测能力。然而,即使使用思维链,检测率仍低于 50%,并且额外的推理成本可能限制其实际应用。这些结果表明,思维链是一种有希望但不够充分的缓解策略:虽然它部分解锁了潜在的检测能力,但并不能弥补训练过程中对批判性思维能力的忽视。

表 4:思维链提示对缺失答案检测的影响

相似文章

幻觉作为承诺失败:大型语言模型在知晓答案的情况下仍然犯错

arXiv cs.CL

本文研究了大型语言模型在其生成时间分布中已有正确答案时仍产生幻觉的现象。通过引入答案可用性的语义概念,作者表明16-47%的指令调优模型幻觉发生在正确概念已经表示的情况下,并且这一比例随着模型规模增加而上升。他们指出,指令调优强化了答案承诺,使得有用性和自信幻觉成为同一枚硬币的两面。