MiniCPM-o 4.5:迈向实时全双工全模态交互

Hugging Face Daily Papers 论文

摘要

MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。

多模态大型语言模型(MLLMs)的最新进展已将人工智能能力从静态离线数据处理推进到实时流式交互,但它们仍远未达到人类级别的多模态交互水平。当前的关键瓶颈不再仅仅是模态覆盖范围或延迟,而是交互范式本身。首先,感知与响应仍然被分为交替阶段,这阻碍了模型在生成过程中结合新输入进行及时调整。其次,大多数现有模型仍是被动的,仅对用户的显式请求做出响应,而无法在不断演进的多模态环境中主动采取行动。我们推出了 MiniCPM-o 4.5,这是我们致力于实现类人多模态交互的最新成果,它通过实时全双工全模态交互缩小了这些差距。它可以实时地同时看、听和说,同时也展现出主动行为,例如基于对实时场景的持续理解发出提醒或评论。MiniCPM-o 4.5 背后的关键技术是 Omni-Flow,这是一个统一的流式框架,沿着共享的时间轴对齐全模态输入和输出。这种机制将传统的轮次交互转化为全双工、时间对齐的过程,实现了同时感知与响应,并允许在同一框架内产生主动行为。MiniCPM-o 4.5 总共拥有 90 亿参数,在视觉语言能力方面接近 Gemini 2.5 Flash,在其规模下提供了最先进的开源性能。此外,它在全模态理解方面超越了 Qwen3-Omni-30B-A3B,并提供了更好的语音生成效果,同时具有显著更高的计算效率。得益于其高效的架构设计和推理优化,该模型可以在内存成本低于 12GB 的边缘设备上执行实时全双工全模态交互。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:57

论文页面 - MiniCPM-o 4.5:迈向实时全双工全模态交互

来源: https://huggingface.co/papers/2604.27393 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

MiniCPM-o 4.5 通过 Omni-Flow 实现了实时全双工多模态交互,这是一个统一流式框架,能够沿时间轴对齐输入与输出,从而实现同步感知与响应。

近年来,多模态大型语言模型 (https://huggingface.co/papers?q=multimodal%20large%20language%20models)(MLLMs)的发展使 AI 能力从静态离线数据处理迈向实时流式交互 (https://huggingface.co/papers?q=real-time%20streaming%20interaction),但它们距离人类水平的多模态交互仍有较大差距。当前的关键瓶颈已不再仅仅是模态覆盖范围或延迟,而是交互范式本身。首先,感知与响应仍被分割为交替阶段,导致模型在生成过程中无法结合新输入进行及时调整。其次,大多数现有模型仍属于被动响应型,仅对用户的明确请求做出反应,而非在动态变化的多模态环境中采取主动行动。我们提出了 MiniCPM-o 4.5,这是我们迈向类人多模态交互的最新成果,它通过实时全双工全模态交互 (https://huggingface.co/papers?q=omni-modal%20interaction) 缩小了上述差距。它可以同时实时地看、听、说,并且基于对实时场景的持续理解,表现出诸如发出提醒或评论等主动行为。MiniCPM-o 4.5 背后的核心技术是 Omni-Flow (https://huggingface.co/papers?q=Omni-Flow),这是一个统一流式框架,能够沿共享时间轴 (https://huggingface.co/papers?q=temporal%20axis) 对齐全模态输入与输出。这种设计将传统的回合制交互 (https://huggingface.co/papers?q=turn-based%20interaction) 转换为全双工、时间对齐的过程,实现了同步感知与响应,并使主动行为能够在同一框架下产生。MiniCPM-o 4.5 拥有 90 亿参数,在视觉语言能力 (https://huggingface.co/papers?q=vision-language%20capabilities) 方面接近 Gemini 2.5 Flash,在其参数量级上提供了最先进的开源性能。它在全模态理解 (https://huggingface.co/papers?q=omni-modal%20understanding) 方面超越了 Qwen3-Omni-30B-A3B,并提供了更优质的语音生成 (https://huggingface.co/papers?q=speech%20generation),同时计算效率显著更高。得益于高效的架构设计与推理优化,该模型能够在内存占用低于 12GB 的边缘设备 (https://huggingface.co/papers?q=edge%20devices) 上执行实时全双工全模态交互 (https://huggingface.co/papers?q=omni-modal%20interaction)。

查看 arXiv 页面 (https://arxiv.org/abs/2604.27393)查看 PDF (https://arxiv.org/pdf/2604.27393)项目页面 (https://huggingface.co/openbmb/MiniCPM-o-4_5)GitHub24.5k (https://github.com/OpenBMB/MiniCPM-o)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.27393)

在您的 agent 中获取此论文:

hf papers read 2604\.27393

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.27393 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.27393 以从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.27393 以从此页面链接。

包含此论文的合集1

相似文章

MiniCPM-V 4.6

Product Hunt

MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。

MiniCPM4:面向终端设备的超高效大语言模型

Papers with Code Trending

MiniCPM4 是一款专为终端设备设计的高效大语言模型,通过稀疏注意力、数据筛选、训练算法和推理系统等方面的创新,在0.5B和8B参数版本上实现了强大性能。

MiniCPM-V 4.5:通过架构、数据与训练配方打造高效多模态大语言模型

Papers with Code Trending

MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型,凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法,实现了高效率与卓越性能。据悉,该模型在显著降低 GPU 显存占用与推理耗时的同时,综合表现已超越更大规模的闭源及开源标杆模型。