MiniCPM-o 4.5:迈向实时全双工全模态交互
摘要
MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。
查看缓存全文
缓存时间: 2026/05/08 07:57
论文页面 - MiniCPM-o 4.5:迈向实时全双工全模态交互
来源: https://huggingface.co/papers/2604.27393 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
MiniCPM-o 4.5 通过 Omni-Flow 实现了实时全双工多模态交互,这是一个统一流式框架,能够沿时间轴对齐输入与输出,从而实现同步感知与响应。
近年来,多模态大型语言模型 (https://huggingface.co/papers?q=multimodal%20large%20language%20models)(MLLMs)的发展使 AI 能力从静态离线数据处理迈向实时流式交互 (https://huggingface.co/papers?q=real-time%20streaming%20interaction),但它们距离人类水平的多模态交互仍有较大差距。当前的关键瓶颈已不再仅仅是模态覆盖范围或延迟,而是交互范式本身。首先,感知与响应仍被分割为交替阶段,导致模型在生成过程中无法结合新输入进行及时调整。其次,大多数现有模型仍属于被动响应型,仅对用户的明确请求做出反应,而非在动态变化的多模态环境中采取主动行动。我们提出了 MiniCPM-o 4.5,这是我们迈向类人多模态交互的最新成果,它通过实时全双工全模态交互 (https://huggingface.co/papers?q=omni-modal%20interaction) 缩小了上述差距。它可以同时实时地看、听、说,并且基于对实时场景的持续理解,表现出诸如发出提醒或评论等主动行为。MiniCPM-o 4.5 背后的核心技术是 Omni-Flow (https://huggingface.co/papers?q=Omni-Flow),这是一个统一流式框架,能够沿共享时间轴 (https://huggingface.co/papers?q=temporal%20axis) 对齐全模态输入与输出。这种设计将传统的回合制交互 (https://huggingface.co/papers?q=turn-based%20interaction) 转换为全双工、时间对齐的过程,实现了同步感知与响应,并使主动行为能够在同一框架下产生。MiniCPM-o 4.5 拥有 90 亿参数,在视觉语言能力 (https://huggingface.co/papers?q=vision-language%20capabilities) 方面接近 Gemini 2.5 Flash,在其参数量级上提供了最先进的开源性能。它在全模态理解 (https://huggingface.co/papers?q=omni-modal%20understanding) 方面超越了 Qwen3-Omni-30B-A3B,并提供了更优质的语音生成 (https://huggingface.co/papers?q=speech%20generation),同时计算效率显著更高。得益于高效的架构设计与推理优化,该模型能够在内存占用低于 12GB 的边缘设备 (https://huggingface.co/papers?q=edge%20devices) 上执行实时全双工全模态交互 (https://huggingface.co/papers?q=omni-modal%20interaction)。
查看 arXiv 页面 (https://arxiv.org/abs/2604.27393)查看 PDF (https://arxiv.org/pdf/2604.27393)项目页面 (https://huggingface.co/openbmb/MiniCPM-o-4_5)GitHub24.5k (https://github.com/OpenBMB/MiniCPM-o)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.27393)
在您的 agent 中获取此论文:
hf papers read 2604\.27393
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2604.27393 以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2604.27393 以从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2604.27393 以从此页面链接。
包含此论文的合集1
相似文章
@rohanpaul_ai: 就在几天前,Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…
Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。
@AdinaYakup: MiniCPM V4.6 一个真正能在手机上运行的 1B 多模态大语言模型,由 @OpenBMB 刚刚发布 1B - Apache2.0 支持 iOS、Android,…
OpenBMB 发布了 MiniCPM V4.6,这是一个专为移动设备优化的 1B 参数多模态大语言模型,采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能,声称在 iOS、Android 和 HarmonyOS 上原生运行时,吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。
MiniCPM-V 4.6
MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。
MiniCPM4:面向终端设备的超高效大语言模型
MiniCPM4 是一款专为终端设备设计的高效大语言模型,通过稀疏注意力、数据筛选、训练算法和推理系统等方面的创新,在0.5B和8B参数版本上实现了强大性能。
MiniCPM-V 4.5:通过架构、数据与训练配方打造高效多模态大语言模型
MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型,凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法,实现了高效率与卓越性能。据悉,该模型在显著降低 GPU 显存占用与推理耗时的同时,综合表现已超越更大规模的闭源及开源标杆模型。