OmniCap-IF:全模态视频字幕生成中指令跟随能力的基准测试与提升

Hugging Face Daily Papers 论文

摘要

介绍了OmniCap-IF,这是首个用于评估全模态视频字幕生成中指令跟随能力的综合性基准,揭示了格式-内容权衡,并提出了改进的模型和数据集。

尽管全模态大语言模型(OLLMs)在联合处理音频和视觉流方面展示了令人印象深刻的能力,但它们严格遵循复杂、多层面用户指令的能力仍未得到充分探索。现有基准主要关注整体视频理解或纯文本指令跟随,未能捕捉模态与用户约束之间复杂的相互作用。为弥补这一空白,我们引入了OmniCap-IF,这是首个专门设计用于评估全模态字幕生成中指令跟随能力的综合性基准。OmniCap-IF采用了一个系统化框架,从格式正确性和内容正确性两个维度评估字幕。我们的基准涵盖了纯视觉、纯音频和音视频模态中的50种不同约束类型,同时整合了时间定位(Temporal Grounding)来评估时空精度。在1,920个高质量样本上对主流模型的广泛评估揭示了显著的性能差异。此外,我们的分析发现了一个关键的“格式-内容权衡”,表明增加格式复杂性会直接降低模型的全模态推理能力。最后,为推进该领域发展,我们整理了一个54K指令微调数据集OmniCap-IF-54K,并提出了OmniCaptioner-IF,该模型在复杂指令遵循和通用全模态字幕生成性能上均取得了显著提升。
查看原文
查看缓存全文

缓存时间: 2026/06/09 12:41

论文页面 - OmniCap-IF:评估与提升全模态视频字幕生成的指令遵循能力

来源:https://huggingface.co/papers/2606.08572 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

OmniCap-IF 被提出作为首个全面评估全模态字幕生成中指令遵循能力的基准,揭示了显著的性能差异以及多模态推理中的“格式-内容权衡”。

尽管全模态大语言模型 (https://huggingface.co/papers?q=Omni-modal%20Large%20Language%20Models) (OLLMs) 在联合处理音频和视觉流方面展现了令人印象深刻的能力,但它们严格遵循复杂、多层面用户指令 (https://huggingface.co/papers?q=multi-faceted%20user%20instructions) 的能力很大程度上仍未被探索。现有基准主要关注整体视频理解或纯文本指令遵循,未能捕捉模态与用户约束之间复杂的相互作用。为填补这一空白,我们引入了 OmniCap-IF,这是首个专门设计用于评估全模态字幕生成 (https://huggingface.co/papers?q=omni-modal%20captioning) 中指令遵循 (https://huggingface.co/papers?q=instruction-following) 能力的全面基准。OmniCap-IF 包含一个系统框架,从两个维度评估字幕:格式正确性 (https://huggingface.co/papers?q=format%20correctness) 和内容正确性 (https://huggingface.co/papers?q=content%20correctness)。我们的基准涵盖 50 种不同的约束类型 (https://huggingface.co/papers?q=constraint%20types),跨越纯视觉、纯音频和音视频模态,同时整合时间定位 (https://huggingface.co/papers?q=Temporal%20Grounding) 以评估时空精度。在 1,920 个高质量样本上对主流模型进行的广泛评估揭示了显著的性能差异。此外,我们的分析发现了一个关键的“格式-内容权衡 (https://huggingface.co/papers?q=format-content%20tradeoff)”,表明增加格式复杂度会直接降低模型的全模态推理能力。最后,为推动该领域发展,我们精心整理了一个 54K 指令微调数据集 OmniCap-IF-54K,并推出了 OmniCaptioner-IF,该模型在复杂指令遵循和通用全模态字幕生成 (https://huggingface.co/papers?q=omni-modal%20captioning) 性能上均取得了显著提升。

查看 arXiv 页面 (https://arxiv.org/abs/2606.08572) 查看 PDF (https://arxiv.org/pdf/2606.08572) 项目页面 (https://nju-link.github.io/OmniCap-IF/) GitHub (https://github.com/NJU-LINK/omnicap-if) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08572)

在你的 Agent 中获取本文:

hf papers read 2606.08572

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型(2个)

NJU-LINK/OmniCaptioner-IF-7B 图像-文本-文本• 11B• 更新于约3小时前 • 26 (https://huggingface.co/NJU-LINK/OmniCaptioner-IF-7B)

NJU-LINK/OmniCaptioner-IF-3B 图像-文本-文本• 6B• 更新于约3小时前 • 35 (https://huggingface.co/NJU-LINK/OmniCaptioner-IF-3B)

引用本文的数据集(2个)

NJU-LINK/OmniCap-IF 查看器• 更新于约3小时前 • 480 • 516 • 1 (https://huggingface.co/datasets/NJU-LINK/OmniCap-IF)

NJU-LINK/OmniCap-IF-54K 查看器• 更新于约3小时前 • 53.9k • 170 (https://huggingface.co/datasets/NJU-LINK/OmniCap-IF-54K)

引用本文的Space(0个)

没有 Space 链接此论文。

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.08572,以便在此页面建立链接。

包含本文的收藏集(0个)

没有包含此论文的收藏集。

将这篇论文添加到某个收藏集 (https://huggingface.co/new-collection),即可在此页面建立链接。

相似文章

VCIFBench:评估视频理解中的复杂指令遵循能力

arXiv cs.CL

VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准,包含 306 条带有内容、格式、风格和结构约束的测试指令,以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍具挑战性,而基于该基准数据进行 DPO 训练可提升指令遵循性能。

TeachObs:一个经过人工验证的多模态教学观察与模型评估基准

arXiv cs.CL

TeachObs引入了一个经过人工验证的多模态教学观察基准,包含30个课堂视频,这些视频标注了片段级别的二元编码和课程级别的专家评分,并评估了五个前沿LLM在三个轨道上的表现,发现没有单一模型能持续优于其他模型,并且模型评估对程序清晰的课程给出了过高评价。