MiniCPM-V 4.5:通过架构、数据与训练配方打造高效多模态大语言模型
摘要
MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型,凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法,实现了高效率与卓越性能。据悉,该模型在显著降低 GPU 显存占用与推理耗时的同时,综合表现已超越更大规模的闭源及开源标杆模型。
查看缓存全文
缓存时间: 2026/05/12 12:47
论文页面 - MiniCPM-V 4.5:通过架构、数据与训练配方打造高效多模态大语言模型
来源:https://huggingface.co/papers/2509.18154
摘要
MiniCPM-V 4.5 是一款拥有 80 亿参数的多模态大语言模型,通过统一的 3D-Resampler 架构、统一的学习范式以及混合强化学习策略,实现了高性能与高效率。
多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)正经历快速发展,代表了人工智能领域的前沿。然而,其训练和推理效率已成为限制 MLLMs 进一步普及和扩展的核心瓶颈。为应对这些挑战,我们推出了 MiniCPM-V 4.5,这是一款专为高效率与强性能设计的 80 亿参数模型。我们在模型架构、数据策略和训练方法三个方面引入了三项核心改进:用于图像和视频高度紧凑编码的统一 3D-Resampler (https://huggingface.co/papers?q=3D-Resampler) 模型架构;无需繁重数据工程即可掌握文档知识与文本识别的统一学习范式 (https://huggingface.co/papers?q=unified%20learning%20paradigm);以及擅长短程与长程推理模式的混合强化学习策略。在 OpenCompass 评测 (https://huggingface.co/papers?q=OpenCompass%20evaluation) 中的综合实验结果表明,MiniCPM-V 4.5 超越了 GPT-4o-latest 等广泛使用的闭源模型,以及 Qwen2.5-VL 72B 等体积显著更大的开源模型。值得注意的是,其卓越性能是在极高的效率下实现的。例如,在广泛采用的 VideoMME 基准测试 (https://huggingface.co/papers?q=VideoMME%20benchmark) 中,MiniCPM-V 4.5 在 300 亿参数以下的模型中取得了最先进的性能,而其 GPU 显存占用仅为 Qwen2.5-VL 7B 的 46.7%,推理时间仅为后者的 8.7%。
查看 arXiv 页面 (https://arxiv.org/abs/2509.18154)查看 PDF (https://arxiv.org/pdf/2509.18154)GitHub 24.6k (https://github.com/OpenBMB/MiniCPM-V)添加至合集 (https://huggingface.co/login?next=%2Fpapers%2F2509.18154)
在您的代理中获取此论文:
hf papers read 2509.18154
尚未安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 (19)
openbmb/MiniCPM-V-4_5 Image-Text-to-Text • 9B • 更新于 3月10日 • 135k • 1.09k (https://huggingface.co/openbmb/MiniCPM-V-4_5)
openbmb/MiniCPM-V-4.6 Image-Text-to-Text • 1B • 更新于约 6 小时前 • 360 (https://huggingface.co/openbmb/MiniCPM-V-4.6)
openbmb/MiniCPM-V-4_5-gguf Image-Text-to-Text • 8B • 更新于 3月10日 • 20k • 62 (https://huggingface.co/openbmb/MiniCPM-V-4_5-gguf)
openbmb/MiniCPM-V-4_5-int4 Image-Text-to-Text • 9B • 更新于 3月10日 • 3.76k • 14 (https://huggingface.co/openbmb/MiniCPM-V-4_5-int4)
浏览引用本文的 19 个模型 (https://huggingface.co/models?other=arxiv:2509.18154)## 引用本文的数据集 (2)
openbmb/RLAIF-V-Dataset 预览 • 更新于 2025年10月14日 • 1.86k • 215 (https://huggingface.co/datasets/openbmb/RLAIF-V-Dataset)
YigeLi/RLAIF-V-Dataset 查看器 • 更新于 15 天前 • 83.1k • 188 (https://huggingface.co/datasets/YigeLi/RLAIF-V-Dataset)
引用本文的 Spaces (24)
包含本文的合集 (9)
浏览包含本文的 9 个合集 (https://huggingface.co/collections?paper=2509.18154)
相似文章
MiniCPM-V 4.6
MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。
@AdinaYakup: MiniCPM V4.6 一个真正能在手机上运行的 1B 多模态大语言模型,由 @OpenBMB 刚刚发布 1B - Apache2.0 支持 iOS、Android,…
OpenBMB 发布了 MiniCPM V4.6,这是一个专为移动设备优化的 1B 参数多模态大语言模型,采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能,声称在 iOS、Android 和 HarmonyOS 上原生运行时,吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。
@Prince_Canuma:祝贺 @OpenBMB 发布 MiniCPM-V 4.6!MLX-VLM 已为其提供 Day-0 支持,感谢 Magic Yang。运行…
OpenBMB 已发布 MiniCPM-V 4.6 视觉语言模型。该模型在发布首日即获得 MLX-VLM 软件包的支持,可在搭载 Apple Silicon 的 Mac 上实现高速推理。
MiniCPM-o 4.5:迈向实时全双工全模态交互
MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。
LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?
本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。