X-Stream: 探索将MLLMs作为多流理解的多路复用器

Hugging Face Daily Papers 论文

摘要

X-Stream 引入了首个多流视频理解基准,将MLLMs作为多路复用器在多个并发流中进行评估。研究表明,当前MLLMs仅能达到约50%的准确率,暴露了处理多流时的显著局限性。

虽然视频流理解已取得显著进展,但实际应用(如体育赛事直播、自动驾驶和多屏协作)本质上需要连续的多流交互。然而,现有基准局限于单流范式,在评估在线跨流推理方面存在关键空白。为填补这一空白,我们引入了 X-Stream,这是首个专为多流流式理解设计的基准。X-Stream 包含来自 932 个视频的 4,220 个经过严格筛选的 QA 对,评估了多窗口、多视角和多设备场景下的 11 个子任务。关键的是,我们的数据集采用了一种新颖的双重验证流水线构建,以防止过度依赖单一流。此外,我们开创性地将多模态大语言模型(MLLMs)概念化为朴素的多路复用器,并通过信号多路复用理论的视角系统评估其性能。我们广泛的在线推理实验揭示了一个严峻的现实:最先进的 MLLMs 在处理并发流时表现艰难,仅达到约 50% 的分数,且主动能力较差。最终,X-Stream 暴露了当前多路复用方案的权衡,为下一代多流智能体提供了实用的评估协议和经验指导。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - X-Stream:探索将多模态大语言模型作为多流理解的多路复用器

来源:https://huggingface.co/papers/2606.02482 作者:

,

,

,

,

,

,

,

,

,

,

摘要

X-Stream 提出了首个用于多流流式理解的基准,揭示了当前多模态大语言模型(MLLM)在处理并发流时的显著局限性。

尽管视频流式理解已取得重大进展,但现实世界的应用,如体育直播、自动驾驶和多屏协作,本质上需要连续的、多流的交互。然而,现有基准局限于单流范式,在评估在线跨流推理方面存在关键空白。为弥合这一差距,我们引入了 X-Stream,这是首个专注于多流流式理解的基准。X-Stream 包含 4,220 个经过严格筛选的问答对,涵盖 932 个视频,在多窗口多视角多设备场景下评估 11 个子任务。关键在于,我们的数据集通过一种新颖的双重验证管道构建,防止对单个流的过度依赖。此外,我们率先将多模态大语言模型(MLLM)概念化为朴素多路复用器,并借助信号多路复用理论系统地评估其性能。我们广泛的在线推理实验揭示了一个严峻的现实:最先进的 MLLM 在处理并发流时表现显著挣扎,仅获得约 50% 的得分,且主动能力不足。最终,X-Stream 暴露了当前多路复用方案的权衡,为下一代多流智能体提供了实用的评估协议和经验指导。

查看 arXiv 页面 查看 PDF 项目页面 GitHub 添加到收藏

在您的智能体中获取此论文:

hf papers read 2606.02482

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型(0)

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02482 以在此页面建立链接。

引用此论文的数据集(1)

spw2000/X-stream 更新时间:25分钟前 • 669 • 2 (https://huggingface.co/datasets/spw2000/X-stream)

引用此论文的空间(0)

暂无空间关联此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.02482 以在此页面建立链接。

包含此论文的合集(0)

暂无合集包含此论文

请将本论文添加到一个合集中以在此页面建立链接。

相似文章

RefereeBench:视频多模态大模型是否已准备好担任多项运动的裁判

arXiv cs.CL

RefereeBench 引入了首个大规模基准测试,包含 925 个精心策划的体育视频和 6,475 个问答对,用于评估视频多模态大模型是否能可靠地充当多项运动的裁判。对最先进模型的评估表明,现有多模态大模型表现不佳(准确率≤60%),尽管它们具有通用视频理解能力,但在规则应用和时间定位方面存在困难。