MiniCPM5-1B
摘要
OpenBMB 发布了 MiniCPM5-1B,这是一个密集型1B参数Transformer模型,在开源1B级模型中达到SOTA,专为设备端部署设计,支持混合推理和长上下文。
查看缓存全文
缓存时间: 2026/05/25 14:19
openbmb/MiniCPM5-1B · Hugging Face
来源:https://huggingface.co/openbmb/MiniCPM5-1B
MiniCPM 技术报告 (https://arxiv.org/pdf/2506.07900) | GitHub 仓库 (https://github.com/OpenBMB/MiniCPM) | UltraData (https://ultradata.openbmb.cn/) | MiniCPM 桌面宠物 (https://github.com/OpenBMB/MiniCPM-Desk-Pet) | 在线演示 (https://huggingface.co/spaces/openbmb/MiniCPM5-1B-Demo)
English | 中文 (https://huggingface.co/openbmb/MiniCPM5-1B/blob/main/README-cn.md)
亮点
我们发布了 MiniCPM5-1B,这是 MiniCPM5 系列的第一个模型。它是一个密集1B Transformer,专为设备端、本地部署和资源受限场景设计,达到了1B级别开源模型的SOTA。
🏆 1B级开源SOTA:与同尺寸级别的强开源模型相比,MiniCPM5-1B 在此对比集中达到了SOTA。其优势在智能体工具使用、代码生成和复杂推理方面最为明显。
MiniCPM5-1B 按领域的能力对比 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/public_leaderboard_radar_en.png)
🧠 混合推理:内置 chat 模板,通过 enable_thinking 切换。同一个检查点既可以作为快速助手,也可以作为深思熟虑的推理者。
🛠️ 部署/微调资源:MiniCPM GitHub 仓库为主要的推理后端和微调框架提供了单页操作指南和 Agent Skills。
🐱 桌面宠物:由 MiniCPM5-1B 驱动的本地LLM桌面宠物。
模型列表
使用此目录选择适合你运行时的模型格式:
- MiniCPM5-1B (https://huggingface.co/openbmb/MiniCPM5-1B) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B) · BF16 最终发布版(经过RL + OPD后训练)👈 你在这里
- MiniCPM5-1B-SFT (https://huggingface.co/openbmb/MiniCPM5-1B-SFT) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B-SFT) · BF16 仅SFT检查点(RL/OPD之前)
- MiniCPM5-1B-Base (https://huggingface.co/openbmb/MiniCPM5-1B-Base) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B-Base) · BF16 基础检查点(仅预训练)
- MiniCPM5-1B-GGUF (https://huggingface.co/openbmb/MiniCPM5-1B-GGUF) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B-GGUF) · 用于 llama.cpp / Ollama / LM Studio 的 GGUF
- MiniCPM5-1B-MLX (https://huggingface.co/openbmb/MiniCPM5-1B-MLX) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B-MLX) · 用于 Apple Silicon 的 MLX / 4bit
模型信息
MiniCPM5-1B 具有以下特性:
- 类型:因果语言模型
- 架构:标准
LlamaForCausalLM - 参数量:1,080,632,832
- 非嵌入参数量:679,552,512
- 层数:24
- 注意力头数(GQA):Q 为 16,KV 为 2
- 上下文长度:131,072
简介
MiniCPM5-1B 是 MiniCPM5 系列的第一个检查点。它专为本地助手、编码智能体、工具使用工作流以及偏好紧凑模型的推理场景而设计。该模型在保持较小部署占用空间的同时,提供原生长上下文支持,并通过同一个检查点实现“思考”/“不思考”聊天模式。
评估结果
我们将 MiniCPM5-1B 与同尺寸级别的强开源模型进行了比较,包括 LFM2.5-1.2B-Thinking、Qwen3-0.6B/think 和 Qwen3.5-0.8B/think。这些是有竞争力的基线模型;在此比较集中,MiniCPM5-1B 达到了1B级开源SOTA,其优势在工具使用、代码生成和复杂推理方面最为明显。这使其成为本地编码智能体、工具助手和推理助手的实用选择。
MiniCPM-5 1B 公共排行榜 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/public_leaderboard_en.png)
训练方法
MiniCPM5-1B 的训练是 UltraData 分级数据管理 (https://arxiv.org/pdf/2602.09003) 的全栈实践,涵盖三个阶段:基础训练、中期训练和后训练。
在基础训练阶段,模型经过稳定训练和衰减训练,以构建核心语言能力和训练稳定性。然后进入中期训练,进一步强化目标能力并适应目标数据分布。训练语料与模型一同发布,包括 Ultra-FineWeb (https://huggingface.co/datasets/openbmb/Ultra-FineWeb)、Ultra-FineWeb-L3 (https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3) 和 UltraData-Math (https://huggingface.co/datasets/openbmb/UltraData-Math)。
在后训练阶段,我们分三步进行:SFT、RL 和 OPD。我们首先使用 200B token 的深度思考 SFT 和 200B token 的混合思考 SFT 来建立深度思考、混合思考和通用聊天能力;SFT 数据作为 UltraData-SFT-2605 (https://huggingface.co/datasets/openbmb/UltraData-SFT-2605) 发布。然后我们针对数学、代码、闭卷问答、写作及相关领域训练专门的 RL 教师模型,并使用 在线策略蒸馏(OPD) 将这些教师模型蒸馏回一个发布模型。
MiniCPM5-1B 训练方法 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/training_recipe.png)
RL + OPD 带来了什么?
RL + OPD 是 MiniCPM5-1B 后训练的关键部分。在数学、代码和指令遵循任务上,RL + OPD 将平均分数提高了 ↑16 分,同时将达到最大 token 预算的响应比例降低了 ↓29 个百分点。下图显示了两阶段 Reasoning RL 流程、分数提升以及过长响应的减少。
RL 结合了用于推理、闭卷问答、写作、指令遵循、长上下文理解和通用对话的互补训练信号。Reasoning RL 基于 DAPO-Math-17k (https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k),遵循 JustRL (https://arxiv.org/pdf/2512.16649) 的极简方案,并进一步添加了两阶段长度调度,以减少过长响应并提高推理准确性。我们还使用了 TriviaQA (https://huggingface.co/datasets/mandarjoshi/trivia_qa)、NQ-Open (https://huggingface.co/datasets/google-research-datasets/nq_open)、LongWriter-Zero-RLData (https://huggingface.co/datasets/THU-KEG/LongWriter-Zero-RLData),以及合成的可验证 RLVR 数据和成对 RLHF 信号,以提高可靠性、指令遵循能力和用户体验。
MiniCPM5-1B RL 两阶段流程 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/rl_two_stage_overview.png)
OPD 建立在 Thinking Machines Lab 的 On-Policy Distillation (https://thinkingmachines.ai/blog/on-policy-distillation/) 基础上,并吸收了 Rethinking On-Policy Distillation (https://arxiv.org/pdf/2604.13016) 的实现改进。在 RL 框架中,我们使用反向 KL 散度作为优势估计,取代了原始的基于验证的优势。在每个响应位置,我们从学生模型和教师模型中各取 top-k logits,计算两个 token 集并集上的反向 KL,并在 RKL 信号的准确性与训练效率之间取得平衡。OPD 复用每个 RL 教师模型训练时使用的领域内提示作为蒸馏数据,因此不需要额外的数据整理。
MiniCPM5-1B RL + OPD 提升 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/rl_gains.png)
MiniCPM5-1B RL + OPD 过长响应率下降 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/rl_overlong.png)
快速开始
vLLM
pip install "vllm>=0.21"
vllm serve openbmb/MiniCPM5-1B --port 8000
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openbmb/MiniCPM5-1B",
"messages": [{"role": "user", "content": "你是谁?请简要介绍一下自己。"}],
"max_tokens": 128,
"temperature": 0.7
}'
SGLang
pip install "sglang[srt]>=0.5.12"
python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000
curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openbmb/MiniCPM5-1B",
"messages": [{"role": "user", "content": "你是谁?请简要介绍一下自己。"}],
"max_tokens": 128,
"temperature": 0.7
}'
Transformers
pip install -U "transformers>=5.6" accelerate torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "openbmb/MiniCPM5-1B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype="auto",
device_map="auto",
)
messages = [{"role": "user", "content": "你是谁?请简要介绍一下自己。"}]
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
enable_thinking=False,
return_tensors="pt",
).to(model.device)
outputs = model.generate(inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))
推荐的聊天模板采样参数:
| 模式 | 推荐参数 |
|---|---|
| 启用 思考 | temperature=0.9, top_p=0.95,enable_thinking=True |
| 不思考 | temperature=0.7, top_p=0.95,enable_thinking=False |
工具调用
对于工具/函数调用,推荐使用 SGLang 作为后端。MiniCPM5-1B 输出 XML 风格的工具调用,SGLang 内置的 minicpm5 解析器会将其原生转换为 OpenAI 兼容的 tool_calls:
python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000 \
--tool-call-parser minicpm5
# 或者:--tool-call-parser auto
GitHub 操作指南和 Agent Skills
MiniCPM5-1B 使用标准 LlamaForCausalLM 架构,因此主流推理引擎可以直接加载:无需自定义内核,无需模型代码分支。有关逐步部署和微调说明,请使用下面的 GitHub 操作指南。Agent Skills 以 GitHub 资源形式链接,供使用 Cursor / Claude Code 风格编码智能体的用户使用。
部署
微调
其他支持的框架
除上述部署和微调框架外,MiniCPM5-1B 还通过 FlagOS 支持多芯片部署。
FlagOS 概述
为了实现跨不同AI芯片的大规模部署,北京智源研究院联合国内外众多研究机构、芯片厂商、系统厂商、算法及软件机构,共同发起并建立了 FlagOS 开源社区。FlagOS 社区致力于为各种AI芯片构建统一的开源系统软件栈,涵盖大规模算子库、统一AI编译器、并行训练和推理框架以及统一通信库等核心开源项目,旨在打造连接“模型-系统-芯片”层的开放技术生态系统。通过实现“一次开发,跨芯片部署”,FlagOS 释放硬件的计算潜力,打破不同芯片软件栈之间的生态壁垒,并有效降低开发者的迁移成本。FlagOS 社区培育AI硬件和软件生态系统,克服单一供应商闭源垄断,促进AI硬件技术的广泛部署,并致力于根植中国,拥抱全球合作。
官方网站:https://flagos.io/
FlagOS 多芯片支持与使用说明
FlagOS:支持多种AI芯片
得益于 FlagOS 的统一多芯片AI系统软件栈,MiniCPM5-1B 在极短时间内适配了4-5种不同的AI芯片。目前,MiniCPM5-1B 的多芯片版本已在 FlagRelease(FlagOS 用于多架构AI芯片大模型自动迁移、适配和部署的平台)上发布。详情如下:
FlagOS 使用方法
在 Nvidia 上使用 FlagOS 性能加速
通过 FlagRelease(推荐)
FlagRelease 是 FlagOS 团队开发的用于多架构AI芯片大模型自动迁移、适配和部署的平台。MiniCPM5-1B 的多芯片版本已在该平台上发布。所有必要的软件包都已预装在平台上,用户无需安装任何东西。
FlagRelease 镜像关键版本
FlagRelease 快速开始
从零开始
- 依赖项:Python 3.12, GLIBC 2.39, GLIBCXX 3.4.33, CXXABI 1.3.15
vllm 版本
安装 FlagOS 算子库
官方仓库:https://github.com/flagos-ai/FlagGems
pip install flag-gems==4.2.1rc0
pip install triton==3.5.1
激活加速
你可以在执行推理的 vllm 源代码中通过添加 flagGems 的导入来启用 flagGems 加速。
import flag_gems
flag_gems.enable(record=True, once=True, path="/root/gems.txt")
vllm serve ${model_path} \
--trust-remote-code \
--dtype bfloat16 \
--enforce-eager \
--port ${Port} \
--served-model-name ${model_name} \
--gpu-memory-utilization 0.85
使用 FlagOS 统一多芯片后端插件
vllm-plugin-FL (https://github.com/flagos-ai/vllm-plugin-FL) 是一个为 vLLM 推理/服务框架构建的插件。它基于 FlagOS 的统一多芯片后端开发,旨在扩展 vLLM 在多种硬件环境中的能力和性能。
使用 vllm-plugin-FL
桌面宠物
我们还发布了 OpenBMB/MiniCPM-Desk-Pet (https://github.com/OpenBMB/MiniCPM-Desk-Pet),一个由 MiniCPM5-1B 本地驱动的桌面宠物。它支持 Apple Silicon / NVIDIA GPU / CPU 路径,可以与 Cursor、Claude Code 和 Codex 等编码智能体配合使用,并支持 LoRA 角色切换。
MiniCPM Desk Pet 视频演示 (https://youtu.be/Ee0slMW8SEk)
限制和负责任使用
MiniCPM5-1B 是一个
相似文章
@AdinaYakup: MiniCPM5-1B 是 1B 参数级别中的一款令人印象深刻的发布!@OpenBMB https://huggingface.co/collections/openbmb/minicpm5… 1B …
MiniCPM5-1B 是 OpenBMB 推出的全新 1B 参数 AI 模型,具有 Think/No-Think 模式的混合推理能力、128K 上下文窗口、Apache 2.0 许可证,并可在多种硬件上运行。
MiniCPM5 1B - 这是什么?
MiniCPM5-1B 是 OpenBMB 推出的一款新型小语言模型,据称是从头构建的,拥有自己的分词器和独特行为,作为一款功能强大的 1B 模型引发了热议。
MiniCPM5-1B 表明小模型竞赛尚未结束
MiniCPM5-1B 是 OpenBMB 推出的一个拥有 10 亿参数的模型,在 AIME 2025 和 τ2-Bench Telecom 上取得了令人瞩目的成绩,超越了更大的模型。它从单个检查点同时提供快速模式和推理模式,这得益于包括监督微调、强化学习和在线策略蒸馏在内的三阶段后训练过程。
@ModelScope2022: MiniCPM5-1B 现已完全开源,包含权重、训练数据和部署代码。1B参数,在Artificial Analysis上排名第一…
MiniCPM5-1B 已完全开源,包含权重、训练数据和部署代码;它在2B以下模型中取得最高评分,并可在边缘设备上运行。
OpenBMB 发布 MiniCPM5-1B 大语言模型。目前同尺寸下最强大的大语言模型之一。(在 Artificial Analysis Intelligence Index 上得分为 17.9)
OpenBMB 发布 MiniCPM5-1B,这是一款领先的 1B 参数开源权重大语言模型,在同尺寸类别中取得了 Artificial Analysis Intelligence Index 最高分(17.9),超越了 Qwen3.5 2B 等更大模型,而使用的参数更少。