Omni-DuplexEval: 评估实时双工全模态交互

Hugging Face Daily Papers 2026/05/17 00:00 论文

multimodal real-time benchmark evaluation streaming llm-as-judge mllm

摘要

本文介绍了Omni-DuplexEval，这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架，旨在评估流式场景下的连续响应生成和主动事件检测。

实时双工交互对于在真实场景中运行的多模态AI系统至关重要，模型必须持续处理流式输入并在适当时刻做出响应。然而，目前大多数多模态大语言模型（MLLMs）都是在离线设置下进行评估的，即在生成任何响应之前处理完整个视频输入。尽管近期工作已开始探索实时双工MLLMs，但针对这一场景仍缺乏全面的基准测试或自动评估方法。为填补这一空白，我们提出Omni-DuplexEval，一个用于系统评估实时双工交互的基准测试。该基准测试包含两个互补的场景：（1）实时描述（Real-Time Description），评估生成连续且时间对齐的响应以跟踪不断变化的多模态输入的能力；（2）主动提醒（Proactive Reminder），评估识别显著事件并在适当时刻做出响应的能力。Omni-DuplexEval包含660个视频，带有细粒度的人工标注标签和精确的时间元数据，涵盖9个基于真实场景的任务，所有问题均以开放式查询形式提出。我们进一步引入了一个基于LLM-as-a-Judge的自动评估框架，通过时间戳感知和顺序推理联合评估响应内容与响应对齐度以及响应时机，实现与人类判断的高度一致。对最先进双工MLLMs的实验揭示了其显著局限性。性能最佳的模型总体得分仅为39.6%，而在主动提醒场景中仅得20.0%。我们的分析指出了两个关键挑战：模型难以在及时响应与连贯、整体内容生成之间取得平衡，并且常常无法确定何时响应以及生成什么内容。我们希望我们的工作能促进MLLMs的进一步发展。

查看原文

查看缓存全文

缓存时间: 2026/05/20 06:36

论文页面 - Omni-DuplexEval: 评估实时双工全模态交互

来源：https://huggingface.co/papers/2605.17360

摘要

一个用于评估多模态大语言模型实时双工交互的基准与评估框架，可评估流式场景下的连续响应生成与主动事件检测能力。

实时双工交互（https://huggingface.co/papers?q=Real-time%20duplex%20interaction）对于在现实场景中运行的多模态AI系统至关重要，模型必须持续处理流式输入并在适当时刻做出响应。然而，现有的多模态大语言模型（https://huggingface.co/papers?q=multimodal%20large%20language%20models）（MLLMs）大多在离线设置下进行评估——即在生成任何响应之前，整个视频输入已被处理完毕。尽管近期工作已开始探索实时双工MLLMs，但针对该场景仍缺乏全面的基准（https://huggingface.co/papers?q=benchmark）或自动评估（https://huggingface.co/papers?q=automatic%20evaluation）方法。为填补这一空白，我们提出Omni-DuplexEval，一个用于系统评估实时双工交互（https://huggingface.co/papers?q=real-time%20duplex%20interaction）的基准（https://huggingface.co/papers?q=benchmark）。该基准包含两个互补场景：（1）实时描述——评估生成连续且时间对齐的响应、跟踪动态多模态输入的能力；（2）主动提醒——评估识别显著事件并在适当时刻响应的能力。Omni-DuplexEval包含660个带有精细人工标注标签和精确时间元数据的视频，涵盖基于现实场景的9个任务，所有问题均以开放式查询形式提出。我们进一步引入一个基于LLM-as-a-Judge（https://huggingface.co/papers?q=LLM-as-a-Judge）的自动评估（https://huggingface.co/papers?q=automatic%20evaluation）框架，通过时间戳感知与顺序推理（https://huggingface.co/papers?q=sequential%20reasoning）联合评估响应-内容对齐（https://huggingface.co/papers?q=response-content%20alignment）和响应时序（https://huggingface.co/papers?q=response%20timing），与人类判断高度一致。对当前最先进双工MLLMs的实验揭示了显著局限：性能最佳的模型总体得分仅为39.6%，在主动提醒任务上仅得20.0%。我们的分析指出了两个关键挑战：模型难以平衡及时响应与连贯、全面的内容生成，且经常无法判断何时响应以及生成什么内容。希望我们的工作能推动MLLMs的进一步发展。

查看arXiv页面（https://arxiv.org/abs/2605.17360）查看PDF（https://arxiv.org/pdf/2605.17360）GitHub2（https://github.com/OpenBMB/Omni-DuplexEval）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.17360）

在你的agent中获取此论文：

hf papers read 2605.17360

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

在模型的README.md中引用arxiv.org/abs/2605.17360，即可在此页面建立链接。

引用此论文的数据集1

Hothan/Omni-DuplexEval 查看器• 更新于16分钟前 • 660 • 206（https://huggingface.co/datasets/Hothan/Omni-DuplexEval）

引用此论文的Spaces0

无Space关联此论文

在Space的README.md中引用arxiv.org/abs/2605.17360，即可在此页面建立链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加至收藏集（https://huggingface.co/new-collection）以在此页面建立链接。

Omni-DuplexEval: 评估实时双工全模态交互

论文页面 - Omni-DuplexEval: 评估实时双工全模态交互

摘要

引用此论文的模型0

引用此论文的数据集1

Hothan/Omni-DuplexEval 查看器• 更新于16分钟前 • 660 • 206（https://huggingface.co/datasets/Hothan/Omni-DuplexEval）

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

MTR-DuplexBench：全双工语音语言模型多轮对话的综合评估基准

OmniPro：面向全主动流式视频理解的综合基准

MiniCPM-o 4.5：迈向实时全双工全模态交互

OmniGUI：在全方位模态智能手机环境中对GUI智能体进行基准测试

提交意见反馈