OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

Hugging Face Daily Papers 2026/05/26 00:00 论文

benchmarking streaming-interaction omnimodal real-time audio-visual llm-evaluation temporal-grounding

摘要

OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试，评估在线音视频处理能力，要求具备时间定位和交互式响应。实验表明，当前模型表现不佳，最佳整体 IA-QTF1 分数仅为 0.368。

我们推出了 OmniInteract，一个面向实时全模态大语言模型的流式基准测试，通过原生在线推理对音视频流进行评估。与离线视频理解或基于文本提示的流式问答不同，OmniInteract 保留了原始的音视频流，要求模型在线处理，且无法访问未来内容。用户查询和环境声音嵌入在音轨中，要求模型检测多模态触发信号，决定何时响应，并在流式进行中回答问题。OmniInteract 包含 250 个视频，共 1,430 个时间定位的响应槽位：其中 1,062 个 1Q1A 槽位覆盖实时、主动和嵌套场景，368 个 1QnA 槽位用于连续任务监控和步骤指导。每个槽位包含触发信号、响应窗口和目标答案。我们使用交互感知质量-时效性F1（Interaction-Aware Quality-Timeliness F1，简称 IA-QTF1）、中断诊断套件（Interruption Diagnostic Suite）以及嵌套链完成分数（Nested Chain Completion Score）来评估响应的正确性、时机、无效输出、中断处理以及上下文连续性。实验表明，当前模型在流式交互方面仍然薄弱，最佳整体 IA-QTF1 仅为 0.368，最佳 1QnA IA-QTF1 仅为 0.052。对全双工场景中数学推理的进一步研究表明，离线能力并不一定能迁移到在线交互中。代码和数据集将公开发布在 https://github.com/Lucky-Lance/OmniInteract。

查看原文

查看缓存全文

缓存时间: 2026/05/29 07:01

论文页面 - OmniInteract: 真实世界流式交互基准测试，用于实时全模态助手

来源: https://huggingface.co/papers/2605.26485 作者:

摘要

OmniInteract 提出了一个用于实时全模态大语言模型的流式基准测试，该基准测试通过时间定位和交互响应要求来评估在线视听处理能力。

我们介绍了 OmniInteract，一个用于实时全模态大语言模型 (https://huggingface.co/papers?q=omnimodal%20large%20language%20models) 的流式基准测试 (https://huggingface.co/papers?q=streaming%20benchmark)，通过原生在线推理 (https://huggingface.co/papers?q=online%20inference) 在视听流 (https://huggingface.co/papers?q=audio-visual%20streams) 上进行评估。与离线视频理解或文本提示的流式问答不同，OmniInteract 保留了原始视听流，并要求模型在线处理，无法访问未来内容。用户查询和环境声音嵌入在音轨中，要求模型检测多模态触发信号 (https://huggingface.co/papers?q=multimodal%20triggers)，决定何时响应，并在流展开期间进行回答。OmniInteract 包含 250 个视频，具有 1,430 个时间定位的响应槽位 (https://huggingface.co/papers?q=temporally%20grounded%20response%20slots)：1,062 个 1Q1A 槽位 (https://huggingface.co/papers?q=1Q1A%20slots)，涵盖实时、主动和嵌套场景，以及 368 个 1QnA 槽位 (https://huggingface.co/papers?q=1QnA%20slots)，用于连续任务监控和步骤指导。每个槽位包括触发信号、响应窗口和目标答案。我们使用交互感知质量-时效性 F1 (https://huggingface.co/papers?q=Interaction-Aware%20Quality-Timeliness%20F1)、中断诊断套件 (https://huggingface.co/papers?q=Interruption%20Diagnostic%20Suite) 和嵌套链完成分数 (https://huggingface.co/papers?q=Nested%20Chain%20Completion%20Score) 来评估响应正确性、时机、无效输出、中断处理和上下文连续性。实验表明，当前模型在流式交互中仍然较弱，最佳整体 IA-QTF1 仅达到 0.368，最佳 1QnA IA-QTF1 仅为 0.052。对全双工设置中数学推理的进一步研究表明，离线能力不一定能迁移到在线交互。代码和数据集将在 https://github.com/Lucky-Lance/OmniInteract 公开提供。

查看 arXiv 页面 (https://arxiv.org/abs/2605.26485) 查看 PDF (https://arxiv.org/pdf/2605.26485) GitHub1 (https://github.com/Lucky-Lance/OmniInteract) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26485)

在您的 agent 中获取这篇论文：

hf papers read 2605\.26485

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型 0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.26485 以从此页面链接。

引用本文的数据集 1

lucky-lance/OmniInteract 更新于约4小时前 (https://huggingface.co/datasets/lucky-lance/OmniInteract)

引用本文的 Space 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.26485 以从此页面链接。

包含本文的收藏集 0

没有包含本文的收藏集

添加此论文到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

论文页面 - OmniInteract: 真实世界流式交互基准测试，用于实时全模态助手

摘要

引用本文的模型 0

引用本文的数据集 1

lucky-lance/OmniInteract 更新于约4小时前 (https://huggingface.co/datasets/lucky-lance/OmniInteract)

引用本文的 Space 0

包含本文的收藏集 0

相似文章

Omni-DuplexEval: 评估实时双工全模态交互

OmniGUI：在全方位模态智能手机环境中对GUI智能体进行基准测试

OmniPro：面向全主动流式视频理解的综合基准

OVO-S-Bench：面向多模态大语言模型流式空间智能的层次化基准测试

Omni-Persona：对全模态个性化进行系统性基准测试与改进

提交意见反馈