VCIFBench:评估视频理解中的复杂指令遵循能力
摘要
VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准,包含 306 条带有内容、格式、风格和结构约束的测试指令,以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍具挑战性,而基于该基准数据进行 DPO 训练可提升指令遵循性能。
查看缓存全文
缓存时间: 2026/06/05 02:15
# VCIFBench:评估视频理解中的复杂指令遵循能力 来源:https://arxiv.org/abs/2606.04588 查看 PDF(https://arxiv.org/pdf/2606.04588) > 摘要:多模态大语言模型在视频理解方面取得了快速进展,但现有基准测试大多依赖简单提示,且对模型能否满足明确输出约束提供的证据十分有限。我们提出 VCIFBench,一个用于评估视频理解中复杂指令遵循能力的基准测试。VCIFBench 从基准适配提示和直接基于视频的提示中构建富含约束的指令,涵盖内容、格式、风格和结构等多维度要求,并采用混合验证流水线对模型输出进行评估。该基准测试包含 306 条可满足的测试指令、540 对 DPO 偏好数据集以及 30 条冲突诊断子集。对 10 个 MLLM 的实验表明,联合约束满足仍是一项颇具挑战性的任务。我们进一步证明,在 VCIFBench 数据上进行 DPO 训练可以提升指令遵循性能。 ## 提交历史 作者:Huangchen Xu \[查看邮箱(https://arxiv.org/show-email/a3eb99fb/2606.04588)\] **\[v1\]** 2026年6月3日(周三)08:27:53 UTC(4,159 KB)
相似文章
CoVEBench:视频编辑模型能否处理复杂指令?
引入CoVEBench,这是一个用于评估组合视频编辑能力的新基准,解决了现有模型在处理复杂多步骤指令时的局限性。该基准包含416个视频、626条指令和9,990个检查项,揭示当前模型在组合编辑任务中表现不佳。
OmniCap-IF:全模态视频字幕生成中指令跟随能力的基准测试与提升
介绍了OmniCap-IF,这是首个用于评估全模态视频字幕生成中指令跟随能力的综合性基准,揭示了格式-内容权衡,并提出了改进的模型和数据集。
SVI-Bench:战略视频智能的动态微世界
介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。
VEFX-Bench:通用视频编辑与视觉特效的全方位基准
VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。
多模态视频理解中视觉状态追踪的基准测试
介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。