Omni-DuplexEval: 评估实时双工全模态交互
摘要
本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。
查看缓存全文
缓存时间: 2026/05/20 06:36
论文页面 - Omni-DuplexEval: 评估实时双工全模态交互
来源:https://huggingface.co/papers/2605.17360
摘要
一个用于评估多模态大语言模型实时双工交互的基准与评估框架,可评估流式场景下的连续响应生成与主动事件检测能力。
实时双工交互(https://huggingface.co/papers?q=Real-time%20duplex%20interaction)对于在现实场景中运行的多模态AI系统至关重要,模型必须持续处理流式输入并在适当时刻做出响应。然而,现有的多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)(MLLMs)大多在离线设置下进行评估——即在生成任何响应之前,整个视频输入已被处理完毕。尽管近期工作已开始探索实时双工MLLMs,但针对该场景仍缺乏全面的基准(https://huggingface.co/papers?q=benchmark)或自动评估(https://huggingface.co/papers?q=automatic%20evaluation)方法。为填补这一空白,我们提出Omni-DuplexEval,一个用于系统评估实时双工交互(https://huggingface.co/papers?q=real-time%20duplex%20interaction)的基准(https://huggingface.co/papers?q=benchmark)。该基准包含两个互补场景:(1)实时描述——评估生成连续且时间对齐的响应、跟踪动态多模态输入的能力;(2)主动提醒——评估识别显著事件并在适当时刻响应的能力。Omni-DuplexEval包含660个带有精细人工标注标签和精确时间元数据的视频,涵盖基于现实场景的9个任务,所有问题均以开放式查询形式提出。我们进一步引入一个基于LLM-as-a-Judge(https://huggingface.co/papers?q=LLM-as-a-Judge)的自动评估(https://huggingface.co/papers?q=automatic%20evaluation)框架,通过时间戳感知与顺序推理(https://huggingface.co/papers?q=sequential%20reasoning)联合评估响应-内容对齐(https://huggingface.co/papers?q=response-content%20alignment)和响应时序(https://huggingface.co/papers?q=response%20timing),与人类判断高度一致。对当前最先进双工MLLMs的实验揭示了显著局限:性能最佳的模型总体得分仅为39.6%,在主动提醒任务上仅得20.0%。我们的分析指出了两个关键挑战:模型难以平衡及时响应与连贯、全面的内容生成,且经常无法判断何时响应以及生成什么内容。希望我们的工作能推动MLLMs的进一步发展。
查看arXiv页面(https://arxiv.org/abs/2605.17360)查看PDF(https://arxiv.org/pdf/2605.17360)GitHub2(https://github.com/OpenBMB/Omni-DuplexEval)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.17360)
在你的agent中获取此论文:
hf papers read 2605.17360
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
在模型的README.md中引用arxiv.org/abs/2605.17360,即可在此页面建立链接。
引用此论文的数据集1
Hothan/Omni-DuplexEval 查看器• 更新于16分钟前 • 660 • 206(https://huggingface.co/datasets/Hothan/Omni-DuplexEval)
引用此论文的Spaces0
无Space关联此论文
在Space的README.md中引用arxiv.org/abs/2605.17360,即可在此页面建立链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加至收藏集(https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
OmniInteract:面向实时全模态助手的真实世界流式交互基准测试
OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。
MTR-DuplexBench:全双工语音语言模型多轮对话的综合评估基准
MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。
OmniPro:面向全主动流式视频理解的综合基准
OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准,包含 2,700 个样本,覆盖多种任务和双模式评估协议。
MiniCPM-o 4.5:迈向实时全双工全模态交互
MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。
OmniGUI:在全方位模态智能手机环境中对GUI智能体进行基准测试
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。