MiniCPM4:面向终端设备的超高效大语言模型

Papers with Code Trending 论文

摘要

MiniCPM4 是一款专为终端设备设计的高效大语言模型,通过稀疏注意力、数据筛选、训练算法和推理系统等方面的创新,在0.5B和8B参数版本上实现了强大性能。

本文介绍了 MiniCPM4,这是一款专门为终端设备设计的高效大语言模型(LLM)。 我们通过在四个关键维度上的系统性创新来实现这一效率:模型架构、训练数据、训练算法和推理系统。 具体来说,在模型架构方面,我们提出了 InfLLM v2,这是一种可训练的稀疏注意力机制,可加速长上下文处理中的预填充和解码阶段。 在训练数据方面,我们提出了 UltraClean,一种高效准确的预训练数据筛选与生成策略,以及 UltraChat v2,一个全面的监督微调数据集。 这些数据集使得仅使用8万亿训练令牌就能获得令人满意的模型性能。 在训练算法方面,我们提出了 ModelTunnel v2 用于高效的预训练策略搜索,并通过引入分块展开(chunk-wise rollout)实现负载均衡的强化学习,以及数据高效的三值大语言模型 BitCPM,改进了现有的后训练方法。 在推理系统方面,我们提出了 CPM.cu,它集成了稀疏注意力、模型量化和推测性采样,以实现高效的预填充和解码。 为满足多样化的设备端需求,MiniCPM4 提供两个版本,分别具有 0.5B 和 8B 参数。 充分的评估结果显示,MiniCPM4 在多个基准测试中优于同尺寸的开源模型,凸显了其高效性和有效性。 值得注意的是,MiniCPM4-8B 在处理长序列时比 Qwen3-8B 显示出显著的加速效果。 通过进一步适配,MiniCPM4 成功支持了多种应用,包括可信调查生成以及基于模型上下文协议的工具使用,充分展示了其广泛的可用性。
查看原文
查看缓存全文

缓存时间: 2026/05/26 18:37

论文页面 - MiniCPM4:端侧设备上的超高效大语言模型

Source: https://huggingface.co/papers/2506.07900 发布于 2025 年 6 月 9 日

#3 今日论文 (https://huggingface.co/papers/date/2025-06-10) 作者:

摘要

MiniCPM4 是一款专为端侧设备设计的高效大语言模型,通过在稀疏注意力、预训练数据集、训练算法和推理系统方面的创新,实现了卓越性能。

本文介绍了 MiniCPM4,一款专为端侧设备设计的高效大语言模型 (LLM)。我们通过在四个关键维度的系统性创新来实现这一效率:模型架构、训练数据、训练算法和推理系统。具体而言,在模型架构方面,我们提出 InfLLM v2 (https://huggingface.co/papers?q=InfLLM%20v2),一种可训练的稀疏注意力机制,可加速长上下文处理中的预填充 (https://huggingface.co/papers?q=prefilling) 和解码 (https://huggingface.co/papers?q=decoding) 阶段。在训练数据方面,我们提出 UltraClean (https://huggingface.co/papers?q=UltraClean),一种高效准确的预训练数据过滤与生成策略,以及 UltraChat v2 (https://huggingface.co/papers?q=UltraChat%20v2),一个全面的监督微调数据集。这些数据集使得仅使用 8 万亿训练 token 即可达到令人满意的模型性能。在训练算法方面,我们提出 ModelTunnel v2 (https://huggingface.co/papers?q=ModelTunnel%20v2) 用于高效的预训练策略搜索,并通过引入分块 rollout (https://huggingface.co/papers?q=chunk-wise%20rollout) 实现负载均衡的强化学习,以及数据高效的三值 LLM (https://huggingface.co/papers?q=data-efficient%20tenary%20LLM) BitCPM (https://huggingface.co/papers?q=BitCPM) 来改进现有后训练方法。在推理系统方面,我们提出 CPM.cu (https://huggingface.co/papers?q=CPM.cu),它集成了稀疏注意力、模型量化 (https://huggingface.co/papers?q=model%20quantization) 和推测性采样,实现高效的预填充 (https://huggingface.co/papers?q=prefilling) 和解码 (https://huggingface.co/papers?q=decoding)。为满足多样化的端侧需求,MiniCPM4 提供两个版本,参数分别为 0.5B 和 8B。充分的评估结果表明,MiniCPM4 在多个基准测试上优于相同规模的开源模型,凸显了其高效性和有效性。值得注意的是,在处理长序列时,MiniCPM4-8B 相比 Qwen3-8B 展现出显著的加速效果。通过进一步适配,MiniCPM4 成功驱动了多种应用,包括可信调查生成和基于模型上下文协议的工具使用,充分展示了其广泛的适用性。

查看 arXiv 页面 (https://arxiv.org/abs/2506.07900)查看 PDF (https://arxiv.org/pdf/2506.07900)项目页面 (https://huggingface.co/collections/openbmb/minicpm4-6841ab29d180257e940baa9b)GitHub9.07k (https://github.com/openbmb/minicpm)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2506.07900)

在您的 agent 中获取此论文:

hf papers read 2506\.07900

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型20

openbmb/MiniCPM4.1-8B 文本生成• 8B• 更新于2025年10月24日 • 79.5k • 389 (https://huggingface.co/openbmb/MiniCPM4.1-8B)

openbmb/MiniCPM5-1B 文本生成• 1B• 更新于约14小时前 • 2.41k • 294 (https://huggingface.co/openbmb/MiniCPM5-1B)

openbmb/MiniCPM4-8B 文本生成• 8B• 更新于2025年10月24日 • 25.6k • 284 (https://huggingface.co/openbmb/MiniCPM4-8B)

openbmb/MiniCPM5-1B-GGUF 文本生成• 1B• 更新于1天前 • 1.66k • 81 (https://huggingface.co/openbmb/MiniCPM5-1B-GGUF)

浏览引用此论文的20个模型 (https://huggingface.co/models?other=arxiv:2506.07900)## 引用此论文的数据集1

openbmb/Ultra-FineWeb 查看器• 更新于2025年12月10日 • 1.29B • 52.2k • 343 (https://huggingface.co/datasets/openbmb/Ultra-FineWeb)

引用此论文的 Spaces12

浏览引用此论文的12个 Spaces (https://huggingface.co/spaces?arxivIds=2506.07900)## 包含此论文的收藏14

浏览包含此论文的14个收藏 (https://huggingface.co/collections?paper=2506.07900)

相似文章

MiniCPM-V 4.5:通过架构、数据与训练配方打造高效多模态大语言模型

Papers with Code Trending

MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型,凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法,实现了高效率与卓越性能。据悉,该模型在显著降低 GPU 显存占用与推理耗时的同时,综合表现已超越更大规模的闭源及开源标杆模型。

MiniCPM-V 4.6

Product Hunt

MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。