OmniCap-IF：全模态视频字幕生成中指令跟随能力的基准测试与提升

Hugging Face Daily Papers 2026/06/07 00:00 论文

omni-modal captioning instruction-following benchmark video-understanding multi-modal dataset

摘要

介绍了OmniCap-IF，这是首个用于评估全模态视频字幕生成中指令跟随能力的综合性基准，揭示了格式-内容权衡，并提出了改进的模型和数据集。

尽管全模态大语言模型（OLLMs）在联合处理音频和视觉流方面展示了令人印象深刻的能力，但它们严格遵循复杂、多层面用户指令的能力仍未得到充分探索。现有基准主要关注整体视频理解或纯文本指令跟随，未能捕捉模态与用户约束之间复杂的相互作用。为弥补这一空白，我们引入了OmniCap-IF，这是首个专门设计用于评估全模态字幕生成中指令跟随能力的综合性基准。OmniCap-IF采用了一个系统化框架，从格式正确性和内容正确性两个维度评估字幕。我们的基准涵盖了纯视觉、纯音频和音视频模态中的50种不同约束类型，同时整合了时间定位（Temporal Grounding）来评估时空精度。在1,920个高质量样本上对主流模型的广泛评估揭示了显著的性能差异。此外，我们的分析发现了一个关键的“格式-内容权衡”，表明增加格式复杂性会直接降低模型的全模态推理能力。最后，为推进该领域发展，我们整理了一个54K指令微调数据集OmniCap-IF-54K，并提出了OmniCaptioner-IF，该模型在复杂指令遵循和通用全模态字幕生成性能上均取得了显著提升。

查看原文

查看缓存全文

缓存时间: 2026/06/09 12:41

论文页面 - OmniCap-IF：评估与提升全模态视频字幕生成的指令遵循能力

来源：https://huggingface.co/papers/2606.08572 作者：

摘要

OmniCap-IF 被提出作为首个全面评估全模态字幕生成中指令遵循能力的基准，揭示了显著的性能差异以及多模态推理中的“格式-内容权衡”。

尽管全模态大语言模型 (https://huggingface.co/papers?q=Omni-modal%20Large%20Language%20Models) (OLLMs) 在联合处理音频和视觉流方面展现了令人印象深刻的能力，但它们严格遵循复杂、多层面用户指令 (https://huggingface.co/papers?q=multi-faceted%20user%20instructions) 的能力很大程度上仍未被探索。现有基准主要关注整体视频理解或纯文本指令遵循，未能捕捉模态与用户约束之间复杂的相互作用。为填补这一空白，我们引入了 OmniCap-IF，这是首个专门设计用于评估全模态字幕生成 (https://huggingface.co/papers?q=omni-modal%20captioning) 中指令遵循 (https://huggingface.co/papers?q=instruction-following) 能力的全面基准。OmniCap-IF 包含一个系统框架，从两个维度评估字幕：格式正确性 (https://huggingface.co/papers?q=format%20correctness) 和内容正确性 (https://huggingface.co/papers?q=content%20correctness)。我们的基准涵盖 50 种不同的约束类型 (https://huggingface.co/papers?q=constraint%20types)，跨越纯视觉、纯音频和音视频模态，同时整合时间定位 (https://huggingface.co/papers?q=Temporal%20Grounding) 以评估时空精度。在 1,920 个高质量样本上对主流模型进行的广泛评估揭示了显著的性能差异。此外，我们的分析发现了一个关键的“格式-内容权衡 (https://huggingface.co/papers?q=format-content%20tradeoff)”，表明增加格式复杂度会直接降低模型的全模态推理能力。最后，为推动该领域发展，我们精心整理了一个 54K 指令微调数据集 OmniCap-IF-54K，并推出了 OmniCaptioner-IF，该模型在复杂指令遵循和通用全模态字幕生成 (https://huggingface.co/papers?q=omni-modal%20captioning) 性能上均取得了显著提升。

查看 arXiv 页面 (https://arxiv.org/abs/2606.08572) 查看 PDF (https://arxiv.org/pdf/2606.08572) 项目页面 (https://nju-link.github.io/OmniCap-IF/) GitHub (https://github.com/NJU-LINK/omnicap-if) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08572)

在你的 Agent 中获取本文：

hf papers read 2606.08572

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型（2个）

NJU-LINK/OmniCaptioner-IF-7B 图像-文本-文本• 11B• 更新于约3小时前 • 26 (https://huggingface.co/NJU-LINK/OmniCaptioner-IF-7B)

NJU-LINK/OmniCaptioner-IF-3B 图像-文本-文本• 6B• 更新于约3小时前 • 35 (https://huggingface.co/NJU-LINK/OmniCaptioner-IF-3B)

引用本文的数据集（2个）

NJU-LINK/OmniCap-IF 查看器• 更新于约3小时前 • 480 • 516 • 1 (https://huggingface.co/datasets/NJU-LINK/OmniCap-IF)

NJU-LINK/OmniCap-IF-54K 查看器• 更新于约3小时前 • 53.9k • 170 (https://huggingface.co/datasets/NJU-LINK/OmniCap-IF-54K)

引用本文的Space（0个）

没有 Space 链接此论文。

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.08572，以便在此页面建立链接。

包含本文的收藏集（0个）

没有包含此论文的收藏集。

将这篇论文添加到某个收藏集 (https://huggingface.co/new-collection)，即可在此页面建立链接。

OmniCap-IF：全模态视频字幕生成中指令跟随能力的基准测试与提升

论文页面 - OmniCap-IF：评估与提升全模态视频字幕生成的指令遵循能力

摘要

引用本文的模型（2个）

NJU-LINK/OmniCaptioner-IF-7B 图像-文本-文本• 11B• 更新于约3小时前 • 26 (https://huggingface.co/NJU-LINK/OmniCaptioner-IF-7B)

NJU-LINK/OmniCaptioner-IF-3B 图像-文本-文本• 6B• 更新于约3小时前 • 35 (https://huggingface.co/NJU-LINK/OmniCaptioner-IF-3B)

引用本文的数据集（2个）

NJU-LINK/OmniCap-IF 查看器• 更新于约3小时前 • 480 • 516 • 1 (https://huggingface.co/datasets/NJU-LINK/OmniCap-IF)

NJU-LINK/OmniCap-IF-54K 查看器• 更新于约3小时前 • 53.9k • 170 (https://huggingface.co/datasets/NJU-LINK/OmniCap-IF-54K)

引用本文的Space（0个）

包含本文的收藏集（0个）

相似文章

OmniPro：面向全主动流式视频理解的综合基准

VCIFBench：评估视频理解中的复杂指令遵循能力

OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

OmniVideo-100K：一个通过结构化脚本和证据链进行音视频推理的数据集

TeachObs：一个经过人工验证的多模态教学观察与模型评估基准

提交意见反馈