OmniCap-IF:全模态视频字幕生成中指令跟随能力的基准测试与提升
摘要
介绍了OmniCap-IF,这是首个用于评估全模态视频字幕生成中指令跟随能力的综合性基准,揭示了格式-内容权衡,并提出了改进的模型和数据集。
查看缓存全文
缓存时间: 2026/06/09 12:41
论文页面 - OmniCap-IF:评估与提升全模态视频字幕生成的指令遵循能力
来源:https://huggingface.co/papers/2606.08572 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
OmniCap-IF 被提出作为首个全面评估全模态字幕生成中指令遵循能力的基准,揭示了显著的性能差异以及多模态推理中的“格式-内容权衡”。
尽管全模态大语言模型 (https://huggingface.co/papers?q=Omni-modal%20Large%20Language%20Models) (OLLMs) 在联合处理音频和视觉流方面展现了令人印象深刻的能力,但它们严格遵循复杂、多层面用户指令 (https://huggingface.co/papers?q=multi-faceted%20user%20instructions) 的能力很大程度上仍未被探索。现有基准主要关注整体视频理解或纯文本指令遵循,未能捕捉模态与用户约束之间复杂的相互作用。为填补这一空白,我们引入了 OmniCap-IF,这是首个专门设计用于评估全模态字幕生成 (https://huggingface.co/papers?q=omni-modal%20captioning) 中指令遵循 (https://huggingface.co/papers?q=instruction-following) 能力的全面基准。OmniCap-IF 包含一个系统框架,从两个维度评估字幕:格式正确性 (https://huggingface.co/papers?q=format%20correctness) 和内容正确性 (https://huggingface.co/papers?q=content%20correctness)。我们的基准涵盖 50 种不同的约束类型 (https://huggingface.co/papers?q=constraint%20types),跨越纯视觉、纯音频和音视频模态,同时整合时间定位 (https://huggingface.co/papers?q=Temporal%20Grounding) 以评估时空精度。在 1,920 个高质量样本上对主流模型进行的广泛评估揭示了显著的性能差异。此外,我们的分析发现了一个关键的“格式-内容权衡 (https://huggingface.co/papers?q=format-content%20tradeoff)”,表明增加格式复杂度会直接降低模型的全模态推理能力。最后,为推动该领域发展,我们精心整理了一个 54K 指令微调数据集 OmniCap-IF-54K,并推出了 OmniCaptioner-IF,该模型在复杂指令遵循和通用全模态字幕生成 (https://huggingface.co/papers?q=omni-modal%20captioning) 性能上均取得了显著提升。
查看 arXiv 页面 (https://arxiv.org/abs/2606.08572) 查看 PDF (https://arxiv.org/pdf/2606.08572) 项目页面 (https://nju-link.github.io/OmniCap-IF/) GitHub (https://github.com/NJU-LINK/omnicap-if) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08572)
在你的 Agent 中获取本文:
hf papers read 2606.08572
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型(2个)
NJU-LINK/OmniCaptioner-IF-7B 图像-文本-文本• 11B• 更新于约3小时前 • 26 (https://huggingface.co/NJU-LINK/OmniCaptioner-IF-7B)
NJU-LINK/OmniCaptioner-IF-3B 图像-文本-文本• 6B• 更新于约3小时前 • 35 (https://huggingface.co/NJU-LINK/OmniCaptioner-IF-3B)
引用本文的数据集(2个)
NJU-LINK/OmniCap-IF 查看器• 更新于约3小时前 • 480 • 516 • 1 (https://huggingface.co/datasets/NJU-LINK/OmniCap-IF)
NJU-LINK/OmniCap-IF-54K 查看器• 更新于约3小时前 • 53.9k • 170 (https://huggingface.co/datasets/NJU-LINK/OmniCap-IF-54K)
引用本文的Space(0个)
没有 Space 链接此论文。
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.08572,以便在此页面建立链接。
包含本文的收藏集(0个)
没有包含此论文的收藏集。
将这篇论文添加到某个收藏集 (https://huggingface.co/new-collection),即可在此页面建立链接。
相似文章
OmniPro:面向全主动流式视频理解的综合基准
OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准,包含 2,700 个样本,覆盖多种任务和双模式评估协议。
VCIFBench:评估视频理解中的复杂指令遵循能力
VCIFBench 是一个用于评估视频理解中复杂指令遵循能力的新基准,包含 306 条带有内容、格式、风格和结构约束的测试指令,以及一个 DPO 偏好数据集。针对 10 个 MLLM 的实验表明,同时满足多项约束仍具挑战性,而基于该基准数据进行 DPO 训练可提升指令遵循性能。
OmniInteract:面向实时全模态助手的真实世界流式交互基准测试
OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。
OmniVideo-100K:一个通过结构化脚本和证据链进行音视频推理的数据集
OmniVideo-100K介绍了一个自动化的数据引擎,通过实体锚定脚本和线索引导的问答生成来提升音视频推理和时间一致性,在多个基准测试上实现了显著的性能提升。
TeachObs:一个经过人工验证的多模态教学观察与模型评估基准
TeachObs引入了一个经过人工验证的多模态教学观察基准,包含30个课堂视频,这些视频标注了片段级别的二元编码和课程级别的专家评分,并评估了五个前沿LLM在三个轨道上的表现,发现没有单一模型能持续优于其他模型,并且模型评估对程序清晰的课程给出了过高评价。