OmniPro:面向全主动流式视频理解的综合基准
摘要
OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准,包含 2,700 个样本,覆盖多种任务和双模式评估协议。
查看缓存全文
缓存时间: 2026/05/22 10:19
论文页面 - OmniPro:面向全主动流式视频理解的综合基准
来源:https://huggingface.co/papers/2605.18577
摘要
OmniPro 被提出作为首个用于评估全模态大语言模型在主动流式视频理解方面的基准,包含多样化的任务和双模式评估协议。
全主动流式视频理解(https://huggingface.co/papers?q=proactive%20streaming%20video%20understanding),即从连续的音频-视频流中自主决定何时说话以及说什么,是全模态大语言模型(https://huggingface.co/papers?q=omni-modal%20large%20language%20models)的一项新兴能力。现有基准在三个关键方面存在不足:它们主要依赖视觉信号,采用轮询或固定时间戳协议而非真正的主动评估,且仅覆盖有限范围的任务,无法可靠评估和区分全主动流式模型。我们提出 OmniPro,这是首个联合评估全模态感知、主动响应以及多样化视频理解任务的基准。它包含 2,700 个人工验证样本,涵盖 9 个子任务和 3 个认知层级,覆盖 6 种基本视频理解能力。值得注意的是,84% 的样本需要音频信号(语音或非语音),每个样本都标注了模态隔离标签,以支持细粒度多模态分析(https://huggingface.co/papers?q=multimodal%20analysis)。我们进一步引入双模式评估协议(https://huggingface.co/papers?q=dual-mode%20evaluation%20protocol):探测模式(https://huggingface.co/papers?q=Probe%20mode)通过在真实触发点前后查询模型来评估内容理解能力,而在线模式(https://huggingface.co/papers?q=Online%20mode)则通过要求模型在流式输入中自主决定何时响应来评估完整的主动能力。评估 11 个代表性模型揭示了三个关键发现:(1) 音频带来一致的性能提升,但不同模型对音频的利用程度差异很大,(2) 性能随时间推移显著下降,表明长程鲁棒性有限,(3) 非语音音频感知仍是最薄弱的维度。
查看 arXiv 页面(https://arxiv.org/abs/2605.18577)查看 PDF(https://arxiv.org/pdf/2605.18577)项目页面(https://ruixiangzhao.github.io/OmniPro/)GitHub(https://github.com/RuixiangZhao/OmniPro)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18577)
将这篇论文放入你的 agent:
hf papers read 2605.18577
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.18577 即可从此页面链接。
引用此论文的数据集1
RuixiangZhao/OmniPro 查看器• 3天前更新 • 2.7k • 977 • 2(https://huggingface.co/datasets/RuixiangZhao/OmniPro)
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.18577 即可从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将这篇论文添加到收藏(https://huggingface.net/new-collection)以从此页面链接。
相似文章
Omni-DuplexEval: 评估实时双工全模态交互
本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。
OmniInteract:面向实时全模态助手的真实世界流式交互基准测试
OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。
提升全模态语言模型:基于视觉去偏评估的分阶段后训练
本文提出了OmniClean,一个用于全模态语言模型的视觉去偏评估基准,并提出了OmniBoost,一种三阶段后训练方案,使得3B模型在清理后的基准上能够匹配30B模型的性能。
LatentOmni:通过统一视听潜在推理重新思考全模态理解
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。
Omni-Persona:对全模态个性化进行系统性基准测试与改进
本文介绍了 Omni-Persona,这是首个涵盖文本、图像和音频的全模态个性化综合基准测试。该基准包含 Persona Modality Graph(角色模态图)以及用于评估接地(grounding)行为的新指标 Calibrated Accuracy(校准准确率)。