MiniCPM-V 4.5:通过架构、数据与训练配方打造高效多模态大语言模型

Papers with Code Trending 论文

摘要

MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型,凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法,实现了高效率与卓越性能。据悉,该模型在显著降低 GPU 显存占用与推理耗时的同时,综合表现已超越更大规模的闭源及开源标杆模型。

多模态大语言模型(MLLMs)正飞速发展,代表了人工智能领域的前沿方向。然而,训练与推理效率已成为制约多模态大语言模型进一步普及与规模化应用的核心瓶颈。为应对上述挑战,我们推出了 MiniCPM-V 4.5,这是一款专为兼顾高效率与卓越性能而设计的 8B 参数模型。我们在模型架构、数据策略与训练方法三个维度引入了核心改进:采用统一的 3D-Resampler 架构,实现对图像和视频的高度紧凑编码;建立统一的学习范式,在无需繁重数据工程的前提下处理文档知识与文本识别;应用混合强化学习策略,使模型同时精通短时与长程推理模式。OpenCompass 评估平台的综合实验结果表明,MiniCPM-V 4.5 的综合表现已超越 GPT-4o-latest 等广泛使用的闭源模型,以及 Qwen2.5-VL 72B 等参数量大得多的开源模型。值得注意的是,该模型在实现卓越性能的同时,依然保持了极高的运行效率。例如,在广泛采用的 VideoMME 基准测试中,MiniCPM-V 4.5 在 30B 参数以下的模型中斩获最优性能,其 GPU 显存开销仅为 Qwen2.5-VL 7B 的 46.7%,推理耗时更是低至后者的 8.7%。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 12:47

论文页面 - MiniCPM-V 4.5:通过架构、数据与训练配方打造高效多模态大语言模型

来源:https://huggingface.co/papers/2509.18154

摘要

MiniCPM-V 4.5 是一款拥有 80 亿参数的多模态大语言模型,通过统一的 3D-Resampler 架构、统一的学习范式以及混合强化学习策略,实现了高性能与高效率。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)正经历快速发展,代表了人工智能领域的前沿。然而,其训练和推理效率已成为限制 MLLMs 进一步普及和扩展的核心瓶颈。为应对这些挑战,我们推出了 MiniCPM-V 4.5,这是一款专为高效率与强性能设计的 80 亿参数模型。我们在模型架构、数据策略和训练方法三个方面引入了三项核心改进:用于图像和视频高度紧凑编码的统一 3D-Resampler (https://huggingface.co/papers?q=3D-Resampler) 模型架构;无需繁重数据工程即可掌握文档知识与文本识别的统一学习范式 (https://huggingface.co/papers?q=unified%20learning%20paradigm);以及擅长短程与长程推理模式的混合强化学习策略。在 OpenCompass 评测 (https://huggingface.co/papers?q=OpenCompass%20evaluation) 中的综合实验结果表明,MiniCPM-V 4.5 超越了 GPT-4o-latest 等广泛使用的闭源模型,以及 Qwen2.5-VL 72B 等体积显著更大的开源模型。值得注意的是,其卓越性能是在极高的效率下实现的。例如,在广泛采用的 VideoMME 基准测试 (https://huggingface.co/papers?q=VideoMME%20benchmark) 中,MiniCPM-V 4.5 在 300 亿参数以下的模型中取得了最先进的性能,而其 GPU 显存占用仅为 Qwen2.5-VL 7B 的 46.7%,推理时间仅为后者的 8.7%。

查看 arXiv 页面 (https://arxiv.org/abs/2509.18154)查看 PDF (https://arxiv.org/pdf/2509.18154)GitHub 24.6k (https://github.com/OpenBMB/MiniCPM-V)添加至合集 (https://huggingface.co/login?next=%2Fpapers%2F2509.18154)

在您的代理中获取此论文:

hf papers read 2509.18154

尚未安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 (19)

openbmb/MiniCPM-V-4_5 Image-Text-to-Text • 9B • 更新于 3月10日 • 135k • 1.09k (https://huggingface.co/openbmb/MiniCPM-V-4_5)

openbmb/MiniCPM-V-4.6 Image-Text-to-Text • 1B • 更新于约 6 小时前 • 360 (https://huggingface.co/openbmb/MiniCPM-V-4.6)

openbmb/MiniCPM-V-4_5-gguf Image-Text-to-Text • 8B • 更新于 3月10日 • 20k • 62 (https://huggingface.co/openbmb/MiniCPM-V-4_5-gguf)

openbmb/MiniCPM-V-4_5-int4 Image-Text-to-Text • 9B • 更新于 3月10日 • 3.76k • 14 (https://huggingface.co/openbmb/MiniCPM-V-4_5-int4)

浏览引用本文的 19 个模型 (https://huggingface.co/models?other=arxiv:2509.18154)## 引用本文的数据集 (2)

openbmb/RLAIF-V-Dataset 预览 • 更新于 2025年10月14日 • 1.86k • 215 (https://huggingface.co/datasets/openbmb/RLAIF-V-Dataset)

YigeLi/RLAIF-V-Dataset 查看器 • 更新于 15 天前 • 83.1k • 188 (https://huggingface.co/datasets/YigeLi/RLAIF-V-Dataset)

引用本文的 Spaces (24)

包含本文的合集 (9)

浏览包含本文的 9 个合集 (https://huggingface.co/collections?paper=2509.18154)

相似文章

MiniCPM-V 4.6

Product Hunt

MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。

MiniCPM-o 4.5:迈向实时全双工全模态交互

Hugging Face Daily Papers

MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。

LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?

Hugging Face Daily Papers

本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。