X-Stream: 探索将MLLMs作为多流理解的多路复用器
摘要
X-Stream 引入了首个多流视频理解基准,将MLLMs作为多路复用器在多个并发流中进行评估。研究表明,当前MLLMs仅能达到约50%的准确率,暴露了处理多流时的显著局限性。
查看缓存全文
缓存时间: 2026/06/02 03:24
论文页面 - X-Stream:探索将多模态大语言模型作为多流理解的多路复用器
来源:https://huggingface.co/papers/2606.02482 作者:
,
,
,
,
,
,
,
,
,
,
摘要
X-Stream 提出了首个用于多流流式理解的基准,揭示了当前多模态大语言模型(MLLM)在处理并发流时的显著局限性。
尽管视频流式理解已取得重大进展,但现实世界的应用,如体育直播、自动驾驶和多屏协作,本质上需要连续的、多流的交互。然而,现有基准局限于单流范式,在评估在线跨流推理方面存在关键空白。为弥合这一差距,我们引入了 X-Stream,这是首个专注于多流流式理解的基准。X-Stream 包含 4,220 个经过严格筛选的问答对,涵盖 932 个视频,在多窗口、多视角和多设备场景下评估 11 个子任务。关键在于,我们的数据集通过一种新颖的双重验证管道构建,防止对单个流的过度依赖。此外,我们率先将多模态大语言模型(MLLM)概念化为朴素多路复用器,并借助信号多路复用理论系统地评估其性能。我们广泛的在线推理实验揭示了一个严峻的现实:最先进的 MLLM 在处理并发流时表现显著挣扎,仅获得约 50% 的得分,且主动能力不足。最终,X-Stream 暴露了当前多路复用方案的权衡,为下一代多流智能体提供了实用的评估协议和经验指导。
查看 arXiv 页面 查看 PDF 项目页面 GitHub 添加到收藏
在您的智能体中获取此论文:
hf papers read 2606.02482
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型(0)
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.02482 以在此页面建立链接。
引用此论文的数据集(1)
spw2000/X-stream 更新时间:25分钟前 • 669 • 2 (https://huggingface.co/datasets/spw2000/X-stream)
引用此论文的空间(0)
暂无空间关联此论文
请在空间 README.md 中引用 arxiv.org/abs/2606.02482 以在此页面建立链接。
包含此论文的合集(0)
暂无合集包含此论文
请将本论文添加到一个合集中以在此页面建立链接。
相似文章
多流大语言模型:通过并行思维、输入与输出流解锁语言模型的潜力
本文提出了多流大语言模型(Multi-Stream LLMs),将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成,解决了自主智能体应用中的瓶颈问题。
Multi-Stream LLMs:关于并行/分离提示、思考、I/O的新论文
本文提出了Multi-Stream LLMs,它使用多个并行的输入/输出流,使模型能够同时读取和生成,从而解除顺序聊天格式的限制。
RefereeBench:视频多模态大模型是否已准备好担任多项运动的裁判
RefereeBench 引入了首个大规模基准测试,包含 925 个精心策划的体育视频和 6,475 个问答对,用于评估视频多模态大模型是否能可靠地充当多项运动的裁判。对最先进模型的评估表明,现有多模态大模型表现不佳(准确率≤60%),尽管它们具有通用视频理解能力,但在规则应用和时间定位方面存在困难。
@XuXander24218:StreamMA:让多智能体系统更快更准确!大家好!我们的团队刚刚发布了StreamMA。它是一个…
StreamMA是一种多智能体推理系统,它逐步流式传输中间结果以改善延迟和准确性,在基准测试中实现了高达26.9倍的加速和+7.3%的性能提升。
观看、记忆、推理:基于MLLMs的人类视角视频理解
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。