VCIFBench：评估视频理解中的复杂指令遵循能力

arXiv cs.CL 2026/06/04 04:00 论文

benchmark video-understanding instruction-following multimodal-llm evaluation dpo

摘要

VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准，包含 306 条带有内容、格式、风格和结构约束的测试指令，以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明，同时满足多项约束仍具挑战性，而基于该基准数据进行 DPO 训练可提升指令遵循性能。

arXiv:2606.04588v1 Announce Type: new Abstract: 多模态大语言模型在视频理解领域取得了快速进展，然而现有基准大多依赖简单提示，对于模型能否满足明确的输出约束提供的证据十分有限。我们提出 VCIFBench，一个用于评估视频理解中复杂指令遵循能力的基准。VCIFBench 从基准适配提示和直接基于视频内容的提示中构建富含约束的指令，涵盖内容、格式、风格和结构等多方面要求，并采用混合验证流程对模型输出进行评估。该基准包含 306 条可满足的测试指令、540 对 DPO 偏好数据集以及 30 条冲突诊断子集。针对 10 个 MLLM 的实验表明，同时满足多项约束仍然具有挑战性。我们进一步证明，基于 VCIFBench 数据进行 DPO 训练能够提升模型的指令遵循性能。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:15

# VCIFBench：评估视频理解中的复杂指令遵循能力

来源：https://arxiv.org/abs/2606.04588

查看 PDF（https://arxiv.org/pdf/2606.04588）

> 摘要：多模态大语言模型在视频理解方面取得了快速进展，但现有基准测试大多依赖简单提示，且对模型能否满足明确输出约束提供的证据十分有限。我们提出 VCIFBench，一个用于评估视频理解中复杂指令遵循能力的基准测试。VCIFBench 从基准适配提示和直接基于视频的提示中构建富含约束的指令，涵盖内容、格式、风格和结构等多维度要求，并采用混合验证流水线对模型输出进行评估。该基准测试包含 306 条可满足的测试指令、540 对 DPO 偏好数据集以及 30 条冲突诊断子集。对 10 个 MLLM 的实验表明，联合约束满足仍是一项颇具挑战性的任务。我们进一步证明，在 VCIFBench 数据上进行 DPO 训练可以提升指令遵循性能。

## 提交历史

作者：Huangchen Xu \[查看邮箱（https://arxiv.org/show-email/a3eb99fb/2606.04588）\] **\[v1\]** 2026年6月3日（周三）08:27:53 UTC（4,159 KB）

VCIFBench：评估视频理解中的复杂指令遵循能力

相似文章

CoVEBench：视频编辑模型能否处理复杂指令？

OmniCap-IF：全模态视频字幕生成中指令跟随能力的基准测试与提升

SVI-Bench：战略视频智能的动态微世界

VEFX-Bench：通用视频编辑与视觉特效的全方位基准

多模态视频理解中视觉状态追踪的基准测试

提交意见反馈