OmniInteract:面向实时全模态助手的真实世界流式交互基准测试
摘要
OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。
查看缓存全文
缓存时间: 2026/05/29 07:01
论文页面 - OmniInteract: 真实世界流式交互基准测试,用于实时全模态助手
来源: https://huggingface.co/papers/2605.26485 作者:
,
,
,
,
,
,
,
,
,
摘要
OmniInteract 提出了一个用于实时全模态大语言模型的流式基准测试,该基准测试通过时间定位和交互响应要求来评估在线视听处理能力。
我们介绍了 OmniInteract,一个用于实时全模态大语言模型 (https://huggingface.co/papers?q=omnimodal%20large%20language%20models) 的流式基准测试 (https://huggingface.co/papers?q=streaming%20benchmark),通过原生在线推理 (https://huggingface.co/papers?q=online%20inference) 在视听流 (https://huggingface.co/papers?q=audio-visual%20streams) 上进行评估。与离线视频理解或文本提示的流式问答不同,OmniInteract 保留了原始视听流,并要求模型在线处理,无法访问未来内容。用户查询和环境声音嵌入在音轨中,要求模型检测多模态触发信号 (https://huggingface.co/papers?q=multimodal%20triggers),决定何时响应,并在流展开期间进行回答。OmniInteract 包含 250 个视频,具有 1,430 个时间定位的响应槽位 (https://huggingface.co/papers?q=temporally%20grounded%20response%20slots):1,062 个 1Q1A 槽位 (https://huggingface.co/papers?q=1Q1A%20slots),涵盖实时、主动和嵌套场景,以及 368 个 1QnA 槽位 (https://huggingface.co/papers?q=1QnA%20slots),用于连续任务监控和步骤指导。每个槽位包括触发信号、响应窗口和目标答案。我们使用交互感知质量-时效性 F1 (https://huggingface.co/papers?q=Interaction-Aware%20Quality-Timeliness%20F1)、中断诊断套件 (https://huggingface.co/papers?q=Interruption%20Diagnostic%20Suite) 和嵌套链完成分数 (https://huggingface.co/papers?q=Nested%20Chain%20Completion%20Score) 来评估响应正确性、时机、无效输出、中断处理和上下文连续性。实验表明,当前模型在流式交互中仍然较弱,最佳整体 IA-QTF1 仅达到 0.368,最佳 1QnA IA-QTF1 仅为 0.052。对全双工设置中数学推理的进一步研究表明,离线能力不一定能迁移到在线交互。代码和数据集将在 https://github.com/Lucky-Lance/OmniInteract 公开提供。
查看 arXiv 页面 (https://arxiv.org/abs/2605.26485) 查看 PDF (https://arxiv.org/pdf/2605.26485) GitHub1 (https://github.com/Lucky-Lance/OmniInteract) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26485)
在您的 agent 中获取这篇论文:
hf papers read 2605\.26485
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型 0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.26485 以从此页面链接。
引用本文的数据集 1
-
lucky-lance/OmniInteract 更新于约4小时前 (https://huggingface.co/datasets/lucky-lance/OmniInteract)
引用本文的 Space 0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.26485 以从此页面链接。
包含本文的收藏集 0
没有包含本文的收藏集
添加此论文到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
Omni-DuplexEval: 评估实时双工全模态交互
本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。
OmniGUI:在全方位模态智能手机环境中对GUI智能体进行基准测试
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。
OmniPro:面向全主动流式视频理解的综合基准
OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准,包含 2,700 个样本,覆盖多种任务和双模式评估协议。
OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。
Omni-Persona:对全模态个性化进行系统性基准测试与改进
本文介绍了 Omni-Persona,这是首个涵盖文本、图像和音频的全模态个性化综合基准测试。该基准包含 Persona Modality Graph(角色模态图)以及用于评估接地(grounding)行为的新指标 Calibrated Accuracy(校准准确率)。