MiniCPM4:面向终端设备的超高效大语言模型
摘要
MiniCPM4 是一款专为终端设备设计的高效大语言模型,通过稀疏注意力、数据筛选、训练算法和推理系统等方面的创新,在0.5B和8B参数版本上实现了强大性能。
查看缓存全文
缓存时间: 2026/05/26 18:37
论文页面 - MiniCPM4:端侧设备上的超高效大语言模型
Source: https://huggingface.co/papers/2506.07900 发布于 2025 年 6 月 9 日
#3 今日论文 (https://huggingface.co/papers/date/2025-06-10) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
MiniCPM4 是一款专为端侧设备设计的高效大语言模型,通过在稀疏注意力、预训练数据集、训练算法和推理系统方面的创新,实现了卓越性能。
本文介绍了 MiniCPM4,一款专为端侧设备设计的高效大语言模型 (LLM)。我们通过在四个关键维度的系统性创新来实现这一效率:模型架构、训练数据、训练算法和推理系统。具体而言,在模型架构方面,我们提出 InfLLM v2 (https://huggingface.co/papers?q=InfLLM%20v2),一种可训练的稀疏注意力机制,可加速长上下文处理中的预填充 (https://huggingface.co/papers?q=prefilling) 和解码 (https://huggingface.co/papers?q=decoding) 阶段。在训练数据方面,我们提出 UltraClean (https://huggingface.co/papers?q=UltraClean),一种高效准确的预训练数据过滤与生成策略,以及 UltraChat v2 (https://huggingface.co/papers?q=UltraChat%20v2),一个全面的监督微调数据集。这些数据集使得仅使用 8 万亿训练 token 即可达到令人满意的模型性能。在训练算法方面,我们提出 ModelTunnel v2 (https://huggingface.co/papers?q=ModelTunnel%20v2) 用于高效的预训练策略搜索,并通过引入分块 rollout (https://huggingface.co/papers?q=chunk-wise%20rollout) 实现负载均衡的强化学习,以及数据高效的三值 LLM (https://huggingface.co/papers?q=data-efficient%20tenary%20LLM) BitCPM (https://huggingface.co/papers?q=BitCPM) 来改进现有后训练方法。在推理系统方面,我们提出 CPM.cu (https://huggingface.co/papers?q=CPM.cu),它集成了稀疏注意力、模型量化 (https://huggingface.co/papers?q=model%20quantization) 和推测性采样,实现高效的预填充 (https://huggingface.co/papers?q=prefilling) 和解码 (https://huggingface.co/papers?q=decoding)。为满足多样化的端侧需求,MiniCPM4 提供两个版本,参数分别为 0.5B 和 8B。充分的评估结果表明,MiniCPM4 在多个基准测试上优于相同规模的开源模型,凸显了其高效性和有效性。值得注意的是,在处理长序列时,MiniCPM4-8B 相比 Qwen3-8B 展现出显著的加速效果。通过进一步适配,MiniCPM4 成功驱动了多种应用,包括可信调查生成和基于模型上下文协议的工具使用,充分展示了其广泛的适用性。
查看 arXiv 页面 (https://arxiv.org/abs/2506.07900)查看 PDF (https://arxiv.org/pdf/2506.07900)项目页面 (https://huggingface.co/collections/openbmb/minicpm4-6841ab29d180257e940baa9b)GitHub9.07k (https://github.com/openbmb/minicpm)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2506.07900)
在您的 agent 中获取此论文:
hf papers read 2506\.07900
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型20
openbmb/MiniCPM4.1-8B 文本生成• 8B• 更新于2025年10月24日 • 79.5k • 389 (https://huggingface.co/openbmb/MiniCPM4.1-8B)
openbmb/MiniCPM5-1B 文本生成• 1B• 更新于约14小时前 • 2.41k • 294 (https://huggingface.co/openbmb/MiniCPM5-1B)
openbmb/MiniCPM4-8B 文本生成• 8B• 更新于2025年10月24日 • 25.6k • 284 (https://huggingface.co/openbmb/MiniCPM4-8B)
openbmb/MiniCPM5-1B-GGUF 文本生成• 1B• 更新于1天前 • 1.66k • 81 (https://huggingface.co/openbmb/MiniCPM5-1B-GGUF)
浏览引用此论文的20个模型 (https://huggingface.co/models?other=arxiv:2506.07900)## 引用此论文的数据集1
openbmb/Ultra-FineWeb 查看器• 更新于2025年12月10日 • 1.29B • 52.2k • 343 (https://huggingface.co/datasets/openbmb/Ultra-FineWeb)
引用此论文的 Spaces12
浏览引用此论文的12个 Spaces (https://huggingface.co/spaces?arxivIds=2506.07900)## 包含此论文的收藏14
浏览包含此论文的14个收藏 (https://huggingface.co/collections?paper=2506.07900)
相似文章
MiniCPM-V 4.5:通过架构、数据与训练配方打造高效多模态大语言模型
MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型,凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法,实现了高效率与卓越性能。据悉,该模型在显著降低 GPU 显存占用与推理耗时的同时,综合表现已超越更大规模的闭源及开源标杆模型。
MiniCPM-V 4.6
MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。
@AdinaYakup: MiniCPM V4.6 一个真正能在手机上运行的 1B 多模态大语言模型,由 @OpenBMB 刚刚发布 1B - Apache2.0 支持 iOS、Android,…
OpenBMB 发布了 MiniCPM V4.6,这是一个专为移动设备优化的 1B 参数多模态大语言模型,采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能,声称在 iOS、Android 和 HarmonyOS 上原生运行时,吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。
OpenBMB 发布 MiniCPM5-1B 大语言模型。目前同尺寸下最强大的大语言模型之一。(在 Artificial Analysis Intelligence Index 上得分为 17.9)
OpenBMB 发布 MiniCPM5-1B,这是一款领先的 1B 参数开源权重大语言模型,在同尺寸类别中取得了 Artificial Analysis Intelligence Index 最高分(17.9),超越了 Qwen3.5 2B 等更大模型,而使用的参数更少。
@FeitengLi: OpenBMB 开源 MiniCPM-V 4.6 了,1.3B 参数(SigLIP2-400M + Qwen3.5-0.8B),262k 上下文,视觉编码 FLOPs 比上一代少 50%+。 同任务 token 成本比 Qwen3.5-0…
OpenBMB releases MiniCPM-V 4.6, a 1.3B-parameter multimodal LLM with 262k context and significantly reduced visual encoding FLOPs, achieving strong benchmark performance and broad inference framework support.