OmniPro：面向全主动流式视频理解的综合基准

Hugging Face Daily Papers 2026/05/18 00:00 论文

benchmark video-understanding multimodal proactive streaming-video large-language-models

摘要

OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准，包含 2,700 个样本，覆盖多种任务和双模式评估协议。

全主动流式视频理解，即从连续的视听流中自主决定何时说话以及说什么，是全模态大语言模型的一种新兴能力。现有基准在三个关键方面存在不足：它们主要依赖视觉信号，采用轮询或固定时间戳协议而非真正的主动评估，并且仅涵盖有限的任务范围，无法可靠地评估和区分全主动流式模型。我们提出了 OmniPro，这是首个联合评估全模态感知、主动响应以及多样化视频理解任务的基准。它包含 2,700 个人工验证的样本，涵盖 9 个子任务和 3 个认知层级，覆盖 6 种基本视频理解能力。值得注意的是，84% 的样本需要音频信号（语音或非语音），并且每个样本都标注了模态隔离标签，以便进行细粒度的多模态分析。我们进一步引入了双模式评估协议：探测模式通过在每个真实触发点前后查询模型来评估内容理解，而在线模式则要求模型在流式输入中自主决定何时响应，从而评估完整的主动能力。对 11 个代表性模型的评估揭示了三个关键发现：（1）音频持续带来增益，但不同模型对音频的利用率差异很大；（2）性能随时间显著下降，表明长时程鲁棒性有限；（3）非语音音频感知仍然是最薄弱的维度。

查看原文

查看缓存全文

缓存时间: 2026/05/22 10:19

论文页面 - OmniPro：面向全主动流式视频理解的综合基准

来源：https://huggingface.co/papers/2605.18577

摘要

OmniPro 被提出作为首个用于评估全模态大语言模型在主动流式视频理解方面的基准，包含多样化的任务和双模式评估协议。

全主动流式视频理解（https://huggingface.co/papers?q=proactive%20streaming%20video%20understanding），即从连续的音频-视频流中自主决定何时说话以及说什么，是全模态大语言模型（https://huggingface.co/papers?q=omni-modal%20large%20language%20models）的一项新兴能力。现有基准在三个关键方面存在不足：它们主要依赖视觉信号，采用轮询或固定时间戳协议而非真正的主动评估，且仅覆盖有限范围的任务，无法可靠评估和区分全主动流式模型。我们提出 OmniPro，这是首个联合评估全模态感知、主动响应以及多样化视频理解任务的基准。它包含 2,700 个人工验证样本，涵盖 9 个子任务和 3 个认知层级，覆盖 6 种基本视频理解能力。值得注意的是，84% 的样本需要音频信号（语音或非语音），每个样本都标注了模态隔离标签，以支持细粒度多模态分析（https://huggingface.co/papers?q=multimodal%20analysis）。我们进一步引入双模式评估协议（https://huggingface.co/papers?q=dual-mode%20evaluation%20protocol）：探测模式（https://huggingface.co/papers?q=Probe%20mode）通过在真实触发点前后查询模型来评估内容理解能力，而在线模式（https://huggingface.co/papers?q=Online%20mode）则通过要求模型在流式输入中自主决定何时响应来评估完整的主动能力。评估 11 个代表性模型揭示了三个关键发现：(1) 音频带来一致的性能提升，但不同模型对音频的利用程度差异很大，(2) 性能随时间推移显著下降，表明长程鲁棒性有限，(3) 非语音音频感知仍是最薄弱的维度。

查看 arXiv 页面（https://arxiv.org/abs/2605.18577）查看 PDF（https://arxiv.org/pdf/2605.18577）项目页面（https://ruixiangzhao.github.io/OmniPro/）GitHub（https://github.com/RuixiangZhao/OmniPro）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.18577）

将这篇论文放入你的 agent：

hf papers read 2605.18577

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.18577 即可从此页面链接。

引用此论文的数据集1

RuixiangZhao/OmniPro 查看器• 3天前更新 • 2.7k • 977 • 2（https://huggingface.co/datasets/RuixiangZhao/OmniPro）

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.18577 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将这篇论文添加到收藏（https://huggingface.net/new-collection）以从此页面链接。

OmniPro：面向全主动流式视频理解的综合基准

论文页面 - OmniPro：面向全主动流式视频理解的综合基准

摘要

引用此论文的模型0

引用此论文的数据集1

RuixiangZhao/OmniPro 查看器• 3天前更新 • 2.7k • 977 • 2（https://huggingface.co/datasets/RuixiangZhao/OmniPro）

引用此论文的 Space0

包含此论文的收藏0

相似文章

Omni-DuplexEval: 评估实时双工全模态交互

OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

提升全模态语言模型：基于视觉去偏评估的分阶段后训练

LatentOmni：通过统一视听潜在推理重新思考全模态理解

Omni-Persona：对全模态个性化进行系统性基准测试与改进

提交意见反馈