X-Stream: 探索将MLLMs作为多流理解的多路复用器

Hugging Face Daily Papers 2026/06/01 00:00 论文

multi-stream video-understanding benchmark multimodal-llm multi-view multi-device

摘要

X-Stream 引入了首个多流视频理解基准，将MLLMs作为多路复用器在多个并发流中进行评估。研究表明，当前MLLMs仅能达到约50%的准确率，暴露了处理多流时的显著局限性。

虽然视频流理解已取得显著进展，但实际应用（如体育赛事直播、自动驾驶和多屏协作）本质上需要连续的多流交互。然而，现有基准局限于单流范式，在评估在线跨流推理方面存在关键空白。为填补这一空白，我们引入了 X-Stream，这是首个专为多流流式理解设计的基准。X-Stream 包含来自 932 个视频的 4,220 个经过严格筛选的 QA 对，评估了多窗口、多视角和多设备场景下的 11 个子任务。关键的是，我们的数据集采用了一种新颖的双重验证流水线构建，以防止过度依赖单一流。此外，我们开创性地将多模态大语言模型（MLLMs）概念化为朴素的多路复用器，并通过信号多路复用理论的视角系统评估其性能。我们广泛的在线推理实验揭示了一个严峻的现实：最先进的 MLLMs 在处理并发流时表现艰难，仅达到约 50% 的分数，且主动能力较差。最终，X-Stream 暴露了当前多路复用方案的权衡，为下一代多流智能体提供了实用的评估协议和经验指导。

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - X-Stream：探索将多模态大语言模型作为多流理解的多路复用器

来源：https://huggingface.co/papers/2606.02482 作者：

摘要

X-Stream 提出了首个用于多流流式理解的基准，揭示了当前多模态大语言模型（MLLM）在处理并发流时的显著局限性。

尽管视频流式理解已取得重大进展，但现实世界的应用，如体育直播、自动驾驶和多屏协作，本质上需要连续的、多流的交互。然而，现有基准局限于单流范式，在评估在线跨流推理方面存在关键空白。为弥合这一差距，我们引入了 X-Stream，这是首个专注于多流流式理解的基准。X-Stream 包含 4,220 个经过严格筛选的问答对，涵盖 932 个视频，在多窗口、多视角和多设备场景下评估 11 个子任务。关键在于，我们的数据集通过一种新颖的双重验证管道构建，防止对单个流的过度依赖。此外，我们率先将多模态大语言模型（MLLM）概念化为朴素多路复用器，并借助信号多路复用理论系统地评估其性能。我们广泛的在线推理实验揭示了一个严峻的现实：最先进的 MLLM 在处理并发流时表现显著挣扎，仅获得约 50% 的得分，且主动能力不足。最终，X-Stream 暴露了当前多路复用方案的权衡，为下一代多流智能体提供了实用的评估协议和经验指导。

查看 arXiv 页面查看 PDF 项目页面 GitHub 添加到收藏

在您的智能体中获取此论文：

hf papers read 2606.02482

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型（0）

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02482 以在此页面建立链接。

引用此论文的数据集（1）

spw2000/X-stream 更新时间：25分钟前 • 669 • 2 (https://huggingface.co/datasets/spw2000/X-stream)

引用此论文的空间（0）

暂无空间关联此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.02482 以在此页面建立链接。

包含此论文的合集（0）

暂无合集包含此论文

请将本论文添加到一个合集中以在此页面建立链接。

X-Stream: 探索将MLLMs作为多流理解的多路复用器

论文页面 - X-Stream：探索将多模态大语言模型作为多流理解的多路复用器

摘要

引用此论文的模型（0）

引用此论文的数据集（1）

spw2000/X-stream 更新时间：25分钟前 • 669 • 2 (https://huggingface.co/datasets/spw2000/X-stream)

引用此论文的空间（0）

包含此论文的合集（0）

相似文章

多流大语言模型：通过并行思维、输入与输出流解锁语言模型的潜力

Multi-Stream LLMs：关于并行/分离提示、思考、I/O的新论文

RefereeBench：视频多模态大模型是否已准备好担任多项运动的裁判

@XuXander24218：StreamMA：让多智能体系统更快更准确！大家好！我们的团队刚刚发布了StreamMA。它是一个…

观看、记忆、推理：基于MLLMs的人类视角视频理解

提交意见反馈