MiniCPM5-1B

Reddit r/LocalLLaMA 2026/05/25 14:14 模型

small-model on-device open-source llm transformer hybrid-reasoning huggingface

摘要

OpenBMB 发布了 MiniCPM5-1B，这是一个密集型1B参数Transformer模型，在开源1B级模型中达到SOTA，专为设备端部署设计，支持混合推理和长上下文。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/25 14:19

openbmb/MiniCPM5-1B · Hugging Face

来源：https://huggingface.co/openbmb/MiniCPM5-1B
MiniCPM 技术报告 (https://arxiv.org/pdf/2506.07900) | GitHub 仓库 (https://github.com/OpenBMB/MiniCPM) | UltraData (https://ultradata.openbmb.cn/) | MiniCPM 桌面宠物 (https://github.com/OpenBMB/MiniCPM-Desk-Pet) | 在线演示 (https://huggingface.co/spaces/openbmb/MiniCPM5-1B-Demo)
English | 中文 (https://huggingface.co/openbmb/MiniCPM5-1B/blob/main/README-cn.md)

亮点

我们发布了 MiniCPM5-1B，这是 MiniCPM5 系列的第一个模型。它是一个密集1B Transformer，专为设备端、本地部署和资源受限场景设计，达到了1B级别开源模型的SOTA。

🏆 1B级开源SOTA：与同尺寸级别的强开源模型相比，MiniCPM5-1B 在此对比集中达到了SOTA。其优势在智能体工具使用、代码生成和复杂推理方面最为明显。
MiniCPM5-1B 按领域的能力对比 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/public_leaderboard_radar_en.png)

🧠 混合推理：内置 chat 模板，通过 enable_thinking 切换。同一个检查点既可以作为快速助手，也可以作为深思熟虑的推理者。

🛠️ 部署/微调资源：MiniCPM GitHub 仓库为主要的推理后端和微调框架提供了单页操作指南和 Agent Skills。

🐱 桌面宠物：由 MiniCPM5-1B 驱动的本地LLM桌面宠物。

模型列表

使用此目录选择适合你运行时的模型格式：

MiniCPM5-1B (https://huggingface.co/openbmb/MiniCPM5-1B) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B) · BF16 最终发布版（经过RL + OPD后训练）👈 你在这里
MiniCPM5-1B-SFT (https://huggingface.co/openbmb/MiniCPM5-1B-SFT) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B-SFT) · BF16 仅SFT检查点（RL/OPD之前）
MiniCPM5-1B-Base (https://huggingface.co/openbmb/MiniCPM5-1B-Base) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B-Base) · BF16 基础检查点（仅预训练）
MiniCPM5-1B-GGUF (https://huggingface.co/openbmb/MiniCPM5-1B-GGUF) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B-GGUF) · 用于 llama.cpp / Ollama / LM Studio 的 GGUF
MiniCPM5-1B-MLX (https://huggingface.co/openbmb/MiniCPM5-1B-MLX) · ModelScope (https://www.modelscope.cn/models/OpenBMB/MiniCPM5-1B-MLX) · 用于 Apple Silicon 的 MLX / 4bit

模型信息

MiniCPM5-1B 具有以下特性：

类型：因果语言模型
架构：标准 LlamaForCausalLM
参数量：1,080,632,832
非嵌入参数量：679,552,512
层数：24
注意力头数（GQA）：Q 为 16，KV 为 2
上下文长度：131,072

简介

MiniCPM5-1B 是 MiniCPM5 系列的第一个检查点。它专为本地助手、编码智能体、工具使用工作流以及偏好紧凑模型的推理场景而设计。该模型在保持较小部署占用空间的同时，提供原生长上下文支持，并通过同一个检查点实现“思考”/“不思考”聊天模式。

评估结果

我们将 MiniCPM5-1B 与同尺寸级别的强开源模型进行了比较，包括 LFM2.5-1.2B-Thinking、Qwen3-0.6B/think 和 Qwen3.5-0.8B/think。这些是有竞争力的基线模型；在此比较集中，MiniCPM5-1B 达到了1B级开源SOTA，其优势在工具使用、代码生成和复杂推理方面最为明显。这使其成为本地编码智能体、工具助手和推理助手的实用选择。
MiniCPM-5 1B 公共排行榜 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/public_leaderboard_en.png)

训练方法

MiniCPM5-1B 的训练是 UltraData 分级数据管理 (https://arxiv.org/pdf/2602.09003) 的全栈实践，涵盖三个阶段：基础训练、中期训练和后训练。

在基础训练阶段，模型经过稳定训练和衰减训练，以构建核心语言能力和训练稳定性。然后进入中期训练，进一步强化目标能力并适应目标数据分布。训练语料与模型一同发布，包括 Ultra-FineWeb (https://huggingface.co/datasets/openbmb/Ultra-FineWeb)、Ultra-FineWeb-L3 (https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3) 和 UltraData-Math (https://huggingface.co/datasets/openbmb/UltraData-Math)。

在后训练阶段，我们分三步进行：SFT、RL 和 OPD。我们首先使用 200B token 的深度思考 SFT 和 200B token 的混合思考 SFT 来建立深度思考、混合思考和通用聊天能力；SFT 数据作为 UltraData-SFT-2605 (https://huggingface.co/datasets/openbmb/UltraData-SFT-2605) 发布。然后我们针对数学、代码、闭卷问答、写作及相关领域训练专门的 RL 教师模型，并使用 在线策略蒸馏（OPD） 将这些教师模型蒸馏回一个发布模型。
MiniCPM5-1B 训练方法 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/training_recipe.png)

RL + OPD 带来了什么？

RL + OPD 是 MiniCPM5-1B 后训练的关键部分。在数学、代码和指令遵循任务上，RL + OPD 将平均分数提高了 ↑16 分，同时将达到最大 token 预算的响应比例降低了 ↓29 个百分点。下图显示了两阶段 Reasoning RL 流程、分数提升以及过长响应的减少。

RL 结合了用于推理、闭卷问答、写作、指令遵循、长上下文理解和通用对话的互补训练信号。Reasoning RL 基于 DAPO-Math-17k (https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k)，遵循 JustRL (https://arxiv.org/pdf/2512.16649) 的极简方案，并进一步添加了两阶段长度调度，以减少过长响应并提高推理准确性。我们还使用了 TriviaQA (https://huggingface.co/datasets/mandarjoshi/trivia_qa)、NQ-Open (https://huggingface.co/datasets/google-research-datasets/nq_open)、LongWriter-Zero-RLData (https://huggingface.co/datasets/THU-KEG/LongWriter-Zero-RLData)，以及合成的可验证 RLVR 数据和成对 RLHF 信号，以提高可靠性、指令遵循能力和用户体验。
MiniCPM5-1B RL 两阶段流程 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/rl_two_stage_overview.png)

OPD 建立在 Thinking Machines Lab 的 On-Policy Distillation (https://thinkingmachines.ai/blog/on-policy-distillation/) 基础上，并吸收了 Rethinking On-Policy Distillation (https://arxiv.org/pdf/2604.13016) 的实现改进。在 RL 框架中，我们使用反向 KL 散度作为优势估计，取代了原始的基于验证的优势。在每个响应位置，我们从学生模型和教师模型中各取 top-k logits，计算两个 token 集并集上的反向 KL，并在 RKL 信号的准确性与训练效率之间取得平衡。OPD 复用每个 RL 教师模型训练时使用的领域内提示作为蒸馏数据，因此不需要额外的数据整理。
MiniCPM5-1B RL + OPD 提升 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/rl_gains.png)
MiniCPM5-1B RL + OPD 过长响应率下降 (https://raw.githubusercontent.com/OpenBMB/MiniCPM/main/assets/minicpm5/rl_overlong.png)

快速开始

vLLM

pip install "vllm>=0.21"  
vllm serve openbmb/MiniCPM5-1B --port 8000

curl http://localhost:8000/v1/chat/completions \  
  -H "Content-Type: application/json" \  
  -d '{  
        "model": "openbmb/MiniCPM5-1B",  
        "messages": [{"role": "user", "content": "你是谁？请简要介绍一下自己。"}],  
        "max_tokens": 128,  
        "temperature": 0.7  
      }'

SGLang

pip install "sglang[srt]>=0.5.12"  
python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000

curl http://localhost:30000/v1/chat/completions \  
  -H "Content-Type: application/json" \  
  -d '{  
        "model": "openbmb/MiniCPM5-1B",  
        "messages": [{"role": "user", "content": "你是谁？请简要介绍一下自己。"}],  
        "max_tokens": 128,  
        "temperature": 0.7  
      }'

Transformers

pip install -U "transformers>=5.6" accelerate torch

from transformers import AutoModelForCausalLM, AutoTokenizer  

model_id = "openbmb/MiniCPM5-1B"  
tokenizer = AutoTokenizer.from_pretrained(model_id)  
model = AutoModelForCausalLM.from_pretrained(  
    model_id,  
    torch_dtype="auto",  
    device_map="auto",  
)  

messages = [{"role": "user", "content": "你是谁？请简要介绍一下自己。"}]  
inputs = tokenizer.apply_chat_template(  
    messages,  
    tokenize=True,  
    add_generation_prompt=True,  
    enable_thinking=False,  
    return_tensors="pt",  
).to(model.device)  

outputs = model.generate(inputs, max_new_tokens=128)  
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

推荐的聊天模板采样参数：

模式	推荐参数
启用思考	`temperature=0.9, top_p=0.95`，`enable_thinking=True`
不思考	`temperature=0.7, top_p=0.95`，`enable_thinking=False`

工具调用

对于工具/函数调用，推荐使用 SGLang 作为后端。MiniCPM5-1B 输出 XML 风格的工具调用，SGLang 内置的 minicpm5 解析器会将其原生转换为 OpenAI 兼容的 tool_calls：

python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000 \  
  --tool-call-parser minicpm5  
# 或者：--tool-call-parser auto

GitHub 操作指南和 Agent Skills

MiniCPM5-1B 使用标准 LlamaForCausalLM 架构，因此主流推理引擎可以直接加载：无需自定义内核，无需模型代码分支。有关逐步部署和微调说明，请使用下面的 GitHub 操作指南。Agent Skills 以 GitHub 资源形式链接，供使用 Cursor / Claude Code 风格编码智能体的用户使用。

部署

微调

其他支持的框架

除上述部署和微调框架外，MiniCPM5-1B 还通过 FlagOS 支持多芯片部署。

FlagOS 概述

为了实现跨不同AI芯片的大规模部署，北京智源研究院联合国内外众多研究机构、芯片厂商、系统厂商、算法及软件机构，共同发起并建立了 FlagOS 开源社区。FlagOS 社区致力于为各种AI芯片构建统一的开源系统软件栈，涵盖大规模算子库、统一AI编译器、并行训练和推理框架以及统一通信库等核心开源项目，旨在打造连接“模型-系统-芯片”层的开放技术生态系统。通过实现“一次开发，跨芯片部署”，FlagOS 释放硬件的计算潜力，打破不同芯片软件栈之间的生态壁垒，并有效降低开发者的迁移成本。FlagOS 社区培育AI硬件和软件生态系统，克服单一供应商闭源垄断，促进AI硬件技术的广泛部署，并致力于根植中国，拥抱全球合作。
官方网站：https://flagos.io/
FlagOS 多芯片支持与使用说明

FlagOS：支持多种AI芯片

得益于 FlagOS 的统一多芯片AI系统软件栈，MiniCPM5-1B 在极短时间内适配了4-5种不同的AI芯片。目前，MiniCPM5-1B 的多芯片版本已在 FlagRelease（FlagOS 用于多架构AI芯片大模型自动迁移、适配和部署的平台）上发布。详情如下：

FlagOS 使用方法

在 Nvidia 上使用 FlagOS 性能加速

通过 FlagRelease（推荐）

FlagRelease 是 FlagOS 团队开发的用于多架构AI芯片大模型自动迁移、适配和部署的平台。MiniCPM5-1B 的多芯片版本已在该平台上发布。所有必要的软件包都已预装在平台上，用户无需安装任何东西。

FlagRelease 镜像关键版本

FlagRelease 快速开始

从零开始

依赖项：Python 3.12, GLIBC 2.39, GLIBCXX 3.4.33, CXXABI 1.3.15

vllm 版本

安装 FlagOS 算子库

官方仓库：https://github.com/flagos-ai/FlagGems

pip install flag-gems==4.2.1rc0  
pip install triton==3.5.1

激活加速

你可以在执行推理的 vllm 源代码中通过添加 flagGems 的导入来启用 flagGems 加速。

import flag_gems  
flag_gems.enable(record=True, once=True, path="/root/gems.txt")

vllm serve ${model_path} \  
  --trust-remote-code \  
  --dtype bfloat16 \  
  --enforce-eager \  
  --port ${Port} \  
  --served-model-name ${model_name} \  
  --gpu-memory-utilization 0.85

使用 FlagOS 统一多芯片后端插件

vllm-plugin-FL (https://github.com/flagos-ai/vllm-plugin-FL) 是一个为 vLLM 推理/服务框架构建的插件。它基于 FlagOS 的统一多芯片后端开发，旨在扩展 vLLM 在多种硬件环境中的能力和性能。

使用 vllm-plugin-FL

桌面宠物

我们还发布了 OpenBMB/MiniCPM-Desk-Pet (https://github.com/OpenBMB/MiniCPM-Desk-Pet)，一个由 MiniCPM5-1B 本地驱动的桌面宠物。它支持 Apple Silicon / NVIDIA GPU / CPU 路径，可以与 Cursor、Claude Code 和 Codex 等编码智能体配合使用，并支持 LoRA 角色切换。
MiniCPM Desk Pet 视频演示 (https://youtu.be/Ee0slMW8SEk)

限制和负责任使用

MiniCPM5-1B 是一个