VCIFBench:评估视频理解中的复杂指令遵循能力

arXiv cs.CL 论文

摘要

VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准,包含 306 条带有内容、格式、风格和结构约束的测试指令,以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍具挑战性,而基于该基准数据进行 DPO 训练可提升指令遵循性能。

arXiv:2606.04588v1 Announce Type: new Abstract: 多模态大语言模型在视频理解领域取得了快速进展,然而现有基准大多依赖简单提示,对于模型能否满足明确的输出约束提供的证据十分有限。我们提出 VCIFBench,一个用于评估视频理解中复杂指令遵循能力的基准。VCIFBench 从基准适配提示和直接基于视频内容的提示中构建富含约束的指令,涵盖内容、格式、风格和结构等多方面要求,并采用混合验证流程对模型输出进行评估。该基准包含 306 条可满足的测试指令、540 对 DPO 偏好数据集以及 30 条冲突诊断子集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍然具有挑战性。我们进一步证明,基于 VCIFBench 数据进行 DPO 训练能够提升模型的指令遵循性能。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:15

# VCIFBench:评估视频理解中的复杂指令遵循能力

来源:https://arxiv.org/abs/2606.04588

查看 PDF(https://arxiv.org/pdf/2606.04588)

> 摘要:多模态大语言模型在视频理解方面取得了快速进展,但现有基准测试大多依赖简单提示,且对模型能否满足明确输出约束提供的证据十分有限。我们提出 VCIFBench,一个用于评估视频理解中复杂指令遵循能力的基准测试。VCIFBench 从基准适配提示和直接基于视频的提示中构建富含约束的指令,涵盖内容、格式、风格和结构等多维度要求,并采用混合验证流水线对模型输出进行评估。该基准测试包含 306 条可满足的测试指令、540 对 DPO 偏好数据集以及 30 条冲突诊断子集。对 10 个 MLLM 的实验表明,联合约束满足仍是一项颇具挑战性的任务。我们进一步证明,在 VCIFBench 数据上进行 DPO 训练可以提升指令遵循性能。

## 提交历史

作者:Huangchen Xu \[查看邮箱(https://arxiv.org/show-email/a3eb99fb/2606.04588)\] **\[v1\]** 2026年6月3日(周三)08:27:53 UTC(4,159 KB)

相似文章

CoVEBench:视频编辑模型能否处理复杂指令?

Hugging Face Daily Papers

引入CoVEBench,这是一个用于评估组合视频编辑能力的新基准,解决了现有模型在处理复杂多步骤指令时的局限性。该基准包含416个视频、626条指令和9,990个检查项,揭示当前模型在组合编辑任务中表现不佳。

SVI-Bench:战略视频智能的动态微世界

Hugging Face Daily Papers

介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。

VEFX-Bench:通用视频编辑与视觉特效的全方位基准

Hugging Face Daily Papers

VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。

多模态视频理解中视觉状态追踪的基准测试

Hugging Face Daily Papers

介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。