OmniInteract:面向实时全模态助手的真实世界流式交互基准测试

Hugging Face Daily Papers 论文

摘要

OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。

我们推出了 OmniInteract,一个面向实时全模态大语言模型的流式基准测试,通过原生在线推理对音视频流进行评估。与离线视频理解或基于文本提示的流式问答不同,OmniInteract 保留了原始的音视频流,要求模型在线处理,且无法访问未来内容。用户查询和环境声音嵌入在音轨中,要求模型检测多模态触发信号,决定何时响应,并在流式进行中回答问题。OmniInteract 包含 250 个视频,共 1,430 个时间定位的响应槽位:其中 1,062 个 1Q1A 槽位覆盖实时、主动和嵌套场景,368 个 1QnA 槽位用于连续任务监控和步骤指导。每个槽位包含触发信号、响应窗口和目标答案。我们使用交互感知质量-时效性F1(Interaction-Aware Quality-Timeliness F1,简称 IA-QTF1)、中断诊断套件(Interruption Diagnostic Suite)以及嵌套链完成分数(Nested Chain Completion Score)来评估响应的正确性、时机、无效输出、中断处理以及上下文连续性。实验表明,当前模型在流式交互方面仍然薄弱,最佳整体 IA-QTF1 仅为 0.368,最佳 1QnA IA-QTF1 仅为 0.052。对全双工场景中数学推理的进一步研究表明,离线能力并不一定能迁移到在线交互中。代码和数据集将公开发布在 https://github.com/Lucky-Lance/OmniInteract。
查看原文
查看缓存全文

缓存时间: 2026/05/29 07:01

论文页面 - OmniInteract: 真实世界流式交互基准测试,用于实时全模态助手

来源: https://huggingface.co/papers/2605.26485 作者:

,

,

,

,

,

,

,

,

,

摘要

OmniInteract 提出了一个用于实时全模态大语言模型的流式基准测试,该基准测试通过时间定位和交互响应要求来评估在线视听处理能力。

我们介绍了 OmniInteract,一个用于实时全模态大语言模型 (https://huggingface.co/papers?q=omnimodal%20large%20language%20models) 的流式基准测试 (https://huggingface.co/papers?q=streaming%20benchmark),通过原生在线推理 (https://huggingface.co/papers?q=online%20inference) 在视听流 (https://huggingface.co/papers?q=audio-visual%20streams) 上进行评估。与离线视频理解或文本提示的流式问答不同,OmniInteract 保留了原始视听流,并要求模型在线处理,无法访问未来内容。用户查询和环境声音嵌入在音轨中,要求模型检测多模态触发信号 (https://huggingface.co/papers?q=multimodal%20triggers),决定何时响应,并在流展开期间进行回答。OmniInteract 包含 250 个视频,具有 1,430 个时间定位的响应槽位 (https://huggingface.co/papers?q=temporally%20grounded%20response%20slots):1,062 个 1Q1A 槽位 (https://huggingface.co/papers?q=1Q1A%20slots),涵盖实时、主动和嵌套场景,以及 368 个 1QnA 槽位 (https://huggingface.co/papers?q=1QnA%20slots),用于连续任务监控和步骤指导。每个槽位包括触发信号、响应窗口和目标答案。我们使用交互感知质量-时效性 F1 (https://huggingface.co/papers?q=Interaction-Aware%20Quality-Timeliness%20F1)、中断诊断套件 (https://huggingface.co/papers?q=Interruption%20Diagnostic%20Suite) 和嵌套链完成分数 (https://huggingface.co/papers?q=Nested%20Chain%20Completion%20Score) 来评估响应正确性、时机、无效输出、中断处理和上下文连续性。实验表明,当前模型在流式交互中仍然较弱,最佳整体 IA-QTF1 仅达到 0.368,最佳 1QnA IA-QTF1 仅为 0.052。对全双工设置中数学推理的进一步研究表明,离线能力不一定能迁移到在线交互。代码和数据集将在 https://github.com/Lucky-Lance/OmniInteract 公开提供。

查看 arXiv 页面 (https://arxiv.org/abs/2605.26485) 查看 PDF (https://arxiv.org/pdf/2605.26485) GitHub1 (https://github.com/Lucky-Lance/OmniInteract) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26485)

在您的 agent 中获取这篇论文:

hf papers read 2605\.26485

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型 0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.26485 以从此页面链接。

引用本文的数据集 1

  • lucky-lance/OmniInteract 更新于约4小时前 (https://huggingface.co/datasets/lucky-lance/OmniInteract)

引用本文的 Space 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.26485 以从此页面链接。

包含本文的收藏集 0

没有包含本文的收藏集

添加此论文到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

Omni-DuplexEval: 评估实时双工全模态交互

Hugging Face Daily Papers

本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。

OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试

Papers with Code Trending

OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。

Omni-Persona:对全模态个性化进行系统性基准测试与改进

Hugging Face Daily Papers

本文介绍了 Omni-Persona,这是首个涵盖文本、图像和音频的全模态个性化综合基准测试。该基准包含 Persona Modality Graph(角色模态图)以及用于评估接地(grounding)行为的新指标 Calibrated Accuracy(校准准确率)。