MiniCPM4：面向终端设备的超高效大语言模型

Papers with Code Trending 2025/06/09 16:16 论文

llm efficiency edge-device sparse-attention model-compression open-source pre-training

摘要

MiniCPM4 是一款专为终端设备设计的高效大语言模型，通过稀疏注意力、数据筛选、训练算法和推理系统等方面的创新，在0.5B和8B参数版本上实现了强大性能。

本文介绍了 MiniCPM4，这是一款专门为终端设备设计的高效大语言模型（LLM）。我们通过在四个关键维度上的系统性创新来实现这一效率：模型架构、训练数据、训练算法和推理系统。具体来说，在模型架构方面，我们提出了 InfLLM v2，这是一种可训练的稀疏注意力机制，可加速长上下文处理中的预填充和解码阶段。在训练数据方面，我们提出了 UltraClean，一种高效准确的预训练数据筛选与生成策略，以及 UltraChat v2，一个全面的监督微调数据集。这些数据集使得仅使用8万亿训练令牌就能获得令人满意的模型性能。在训练算法方面，我们提出了 ModelTunnel v2 用于高效的预训练策略搜索，并通过引入分块展开（chunk-wise rollout）实现负载均衡的强化学习，以及数据高效的三值大语言模型 BitCPM，改进了现有的后训练方法。在推理系统方面，我们提出了 CPM.cu，它集成了稀疏注意力、模型量化和推测性采样，以实现高效的预填充和解码。为满足多样化的设备端需求，MiniCPM4 提供两个版本，分别具有 0.5B 和 8B 参数。充分的评估结果显示，MiniCPM4 在多个基准测试中优于同尺寸的开源模型，凸显了其高效性和有效性。值得注意的是，MiniCPM4-8B 在处理长序列时比 Qwen3-8B 显示出显著的加速效果。通过进一步适配，MiniCPM4 成功支持了多种应用，包括可信调查生成以及基于模型上下文协议的工具使用，充分展示了其广泛的可用性。

查看原文

查看缓存全文

缓存时间: 2026/05/26 18:37

论文页面 - MiniCPM4：端侧设备上的超高效大语言模型

Source: https://huggingface.co/papers/2506.07900 发布于 2025 年 6 月 9 日

#3 今日论文 (https://huggingface.co/papers/date/2025-06-10) 作者：

，

摘要

MiniCPM4 是一款专为端侧设备设计的高效大语言模型，通过在稀疏注意力、预训练数据集、训练算法和推理系统方面的创新，实现了卓越性能。

本文介绍了 MiniCPM4，一款专为端侧设备设计的高效大语言模型 (LLM)。我们通过在四个关键维度的系统性创新来实现这一效率：模型架构、训练数据、训练算法和推理系统。具体而言，在模型架构方面，我们提出 InfLLM v2 (https://huggingface.co/papers?q=InfLLM%20v2)，一种可训练的稀疏注意力机制，可加速长上下文处理中的预填充 (https://huggingface.co/papers?q=prefilling) 和解码 (https://huggingface.co/papers?q=decoding) 阶段。在训练数据方面，我们提出 UltraClean (https://huggingface.co/papers?q=UltraClean)，一种高效准确的预训练数据过滤与生成策略，以及 UltraChat v2 (https://huggingface.co/papers?q=UltraChat%20v2)，一个全面的监督微调数据集。这些数据集使得仅使用 8 万亿训练 token 即可达到令人满意的模型性能。在训练算法方面，我们提出 ModelTunnel v2 (https://huggingface.co/papers?q=ModelTunnel%20v2) 用于高效的预训练策略搜索，并通过引入分块 rollout (https://huggingface.co/papers?q=chunk-wise%20rollout) 实现负载均衡的强化学习，以及数据高效的三值 LLM (https://huggingface.co/papers?q=data-efficient%20tenary%20LLM) BitCPM (https://huggingface.co/papers?q=BitCPM) 来改进现有后训练方法。在推理系统方面，我们提出 CPM.cu (https://huggingface.co/papers?q=CPM.cu)，它集成了稀疏注意力、模型量化 (https://huggingface.co/papers?q=model%20quantization) 和推测性采样，实现高效的预填充 (https://huggingface.co/papers?q=prefilling) 和解码 (https://huggingface.co/papers?q=decoding)。为满足多样化的端侧需求，MiniCPM4 提供两个版本，参数分别为 0.5B 和 8B。充分的评估结果表明，MiniCPM4 在多个基准测试上优于相同规模的开源模型，凸显了其高效性和有效性。值得注意的是，在处理长序列时，MiniCPM4-8B 相比 Qwen3-8B 展现出显著的加速效果。通过进一步适配，MiniCPM4 成功驱动了多种应用，包括可信调查生成和基于模型上下文协议的工具使用，充分展示了其广泛的适用性。

查看 arXiv 页面 (https://arxiv.org/abs/2506.07900)查看 PDF (https://arxiv.org/pdf/2506.07900)项目页面 (https://huggingface.co/collections/openbmb/minicpm4-6841ab29d180257e940baa9b)GitHub9.07k (https://github.com/openbmb/minicpm)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2506.07900)

在您的 agent 中获取此论文：

hf papers read 2506\.07900

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型20

openbmb/MiniCPM4.1-8B 文本生成• 8B• 更新于2025年10月24日 • 79.5k • 389 (https://huggingface.co/openbmb/MiniCPM4.1-8B)

openbmb/MiniCPM5-1B 文本生成• 1B• 更新于约14小时前 • 2.41k • 294 (https://huggingface.co/openbmb/MiniCPM5-1B)

openbmb/MiniCPM4-8B 文本生成• 8B• 更新于2025年10月24日 • 25.6k • 284 (https://huggingface.co/openbmb/MiniCPM4-8B)

openbmb/MiniCPM5-1B-GGUF 文本生成• 1B• 更新于1天前 • 1.66k • 81 (https://huggingface.co/openbmb/MiniCPM5-1B-GGUF)

浏览引用此论文的20个模型 (https://huggingface.co/models?other=arxiv:2506.07900)## 引用此论文的数据集1

openbmb/Ultra-FineWeb 查看器• 更新于2025年12月10日 • 1.29B • 52.2k • 343 (https://huggingface.co/datasets/openbmb/Ultra-FineWeb)

引用此论文的 Spaces12

浏览引用此论文的12个 Spaces (https://huggingface.co/spaces?arxivIds=2506.07900)## 包含此论文的收藏14

浏览包含此论文的14个收藏 (https://huggingface.co/collections?paper=2506.07900)

相似文章

MiniCPM-V 4.5：通过架构、数据与训练配方打造高效多模态大语言模型

Papers with Code Trending

MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型，凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法，实现了高效率与卓越性能。据悉，该模型在显著降低 GPU 显存占用与推理耗时的同时，综合表现已超越更大规模的闭源及开源标杆模型。

MiniCPM-V 4.6

Product Hunt

MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。

@AdinaYakup: MiniCPM V4.6 一个真正能在手机上运行的 1B 多模态大语言模型，由 @OpenBMB 刚刚发布 1B - Apache2.0 支持 iOS、Android,…

X AI KOLs Following

OpenBMB 发布了 MiniCPM V4.6，这是一个专为移动设备优化的 1B 参数多模态大语言模型，采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能，声称在 iOS、Android 和 HarmonyOS 上原生运行时，吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。

OpenBMB 发布 MiniCPM5-1B 大语言模型。目前同尺寸下最强大的大语言模型之一。（在 Artificial Analysis Intelligence Index 上得分为 17.9）

Reddit r/singularity

OpenBMB 发布 MiniCPM5-1B，这是一款领先的 1B 参数开源权重大语言模型，在同尺寸类别中取得了 Artificial Analysis Intelligence Index 最高分（17.9），超越了 Qwen3.5 2B 等更大模型，而使用的参数更少。

@FeitengLi: OpenBMB 开源 MiniCPM-V 4.6 了，1.3B 参数（SigLIP2-400M + Qwen3.5-0.8B），262k 上下文，视觉编码 FLOPs 比上一代少 50%+。同任务 token 成本比 Qwen3.5-0…

X AI KOLs Timeline

OpenBMB releases MiniCPM-V 4.6, a 1.3B-parameter multimodal LLM with 262k context and significantly reduced visual encoding FLOPs, achieving strong benchmark performance and broad inference framework support.