XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending 2026/04/27 12:52 模型

摘要

小米发布了 MiMo-V2.5-Pro，这是一个开源的 MoE 语言模型，拥有 1.02T 总参数和 1M token 上下文长度，专为复杂的智能体（Agent）和软件工程任务进行了优化。

任务：文本生成标签：safetensors, mimo_v2, 文本生成, 智能体, 长上下文, 代码, 对话, custom_code, 英语, 中文, license:mit, 评测结果, fp8, 地区:us

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:55

XiaomiMiMo/MiMo-V2.5-Pro · Hugging Face

来源: https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro Xiaomi-MiMo

MiMo-V2.5-Pro 是一个开源的混合专家（Mixture-of-Experts, MoE）语言模型，总参数量达 1.02T，激活参数量为 42B。它采用了 MiMo-V2-Flash (https://github.com/XiaomiMiMo/MiMo-V2-Flash) 中引入的混合注意力架构和 3 层多 Token 预测（MTP），支持高达 1M token 的上下文长度。

基准测试结果

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#1-introduction1. 简介

MiMo-V2.5-Pro 是我们迄今最强大的模型，专为最具挑战性的智能体（Agentic）、复杂软件工程以及长周期任务而设计。它在 1M token 的上下文窗口中，能够维持跨越数千次工具调用的复杂轨迹，并展现出强大的指令遵循能力和连贯性。主要特性包括：

混合注意力架构：以 6:1 的比例交错使用滑动窗口注意力（SWA）和全局注意力（GA），滑动窗口大小为 128。这将近乎降低了 7 倍的 KV-cache 存储需求，同时通过可学习的注意力偏置（attention sink bias）保持了长上下文性能。
多 Token 预测（MTP）：配备了三个使用密集 FFN 的轻量级 MTP 模块。这使得推理期间的输出速度提高了三倍，并有助于加速强化学习训练中的 rollout 过程。
高效预训练：在 27T tokens 上使用 FP8 混合精度和原生 32k 序列长度进行训练。上下文窗口最高支持 1M tokens。
智能体能力：后训练阶段采用了监督微调（SFT）、大规模智能体强化学习以及多教师在线策略蒸馏（MOPD），在最具有挑战性的智能体、复杂软件工程和长周期任务中实现了卓越的性能。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#2-model-downloads2. 模型下载

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#3-evaluation-results3. 评估结果

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#base-model-evaluation基础模型评估

类别	基准测试	设置	MiMo-V2.5-Pro Base	MiMo-V2.5 Base	DeepSeek-V4-Pro Base	DeepSeek-V4-Flash Base	Kimi-K2 Base	参数 #激活 / #总
通用	BBH	3-shot	88.4	87.2	87.5	86.9	88.7	42B / 1.02T
	MMLU	5-shot	89.4	86.3	90.1	88.7	87.8	15B / 310B
	MMLU-Redux	5-shot	92.8	89.8	90.8	89.4	90.2	49B / 1.6T
	MMLU-Pro	5-shot	68.5	65.8	73.5	68.3	69.2	13B / 284B
	DROP	3-shot	86.3	83.7	88.7	88.6	83.6	32B / 1.04T
	ARC-Challenge	25-shot	97.2	96.5	-	-	96.2
	HellaSwag	10-shot	89.8	88.6	88.0	85.7	94.6
	WinoGrande	5-shot	85.6	84.7	81.5	79.5	85.3
	TriviaQA	5-shot	81.3	80.7	85.6	82.8	85.1
	GPQA-Diamond	5-shot	66.7	58.1	-	-	48.1
数学	GSM8K	8-shot	99.6	83.3	92.6	90.8	92.1
	MATH	4-shot	86.2	67.7	64.5	57.4	70.2
	AIME 24&25	2-shot	37.3	36.9	-	-	31.6
代码	HumanEval+	1-shot	75.6	71.3	-	-	84.8
	MBPP+	3-shot	74.1	70.9	-	-	73.8
	LiveCodeBench v6	1-shot	39.6	35.5	-	-	26.3
	SWE-Bench (AgentLess)	3-shot	35.7	30.8	-	-	28.2
中文	C-Eval	5-shot	91.5	88.6	93.1	92.1	92.5
	CMMLU	5-shot	90.2	88.2	90.8	90.4	90.9
多语言	GlobalMMLU	5-shot	83.6	77.4	-	-	80.7

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#long-context-evaluation长上下文评估

后训练评估

GraphWalks 是 OpenAI 提出的一个长上下文基准测试，它在提示词中填充由十六进制哈希节点组成的有向图，并要求模型执行广度优先搜索（找出深度恰好为 N 的节点）或列出某个节点的父节点。我们在 32k 到 1M 输入 token 的整个范围内进行评估，并应用了 Anthropic 描述的相同评估修正方法。

MiMo V2.5 Pro 在长上下文推理方面实现了重大飞跃。超过 128k 后，V2 Pro 的性能迅速下降，并在 1M 处在这两个子任务上均崩溃至 0.00，而 V2.5 Pro 在 512k 时仍能获得 0.56（BFS）/ 0.92（Parents）的分数，在 1M 时仍能获得 0.37 / 0.62 的分数。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#4-model-architecture–training-process4. 模型架构与训练过程

MiMo-V2.5-Pro 通过交错使用局部滑动窗口注意力（SWA）和全局注意力（GA）来解决长上下文的二次复杂度问题。与传统的投机解码不同，我们的 MTP 模块原生集成于训练和推理过程中。

模型架构

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#model-summary模型摘要

组件	MiMo-V2.5-Pro	MiMo-V2.5
总参数量	1.02T	310B
激活参数量	42B	15B
隐藏层大小	6144	4096
层数	70 (1 密集 + 69 MoE)	48 (1 密集 + 47 MoE)
全注意力层数	10	9
SWA 层数	60	39
注意力头数	128	64
KV 头数	8 (GQA)	8 (GA) / 4 (SWA)
头维度 (QK / V)	192 / 128	192 / 128
路由专家数	384	256
每 Token 专家数	8	8
MoE 中间层大小	2048	2048
密集中间层大小	16384 (仅第 0 层)	16384 (仅第 0 层)
SWA 窗口大小	128	128
最大上下文长度	1M	1M
MTP 层数	3	3

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#training-process训练过程

在后训练方面，MiMo-V2.5-Pro 采用了 MiMo-V2-Flash (https://github.com/XiaomiMiMo/MiMo-V2-Flash) 中引入的三阶段后训练范式，以实现卓越的性能。该范式首先通过监督微调（SFT）利用精心策划的数据对构建强大且基础性的指令遵循能力。接下来，在领域专用训练阶段，使用领域特定的 RL 奖励分别优化各种教师模型——涵盖从数学、安全到复杂智能体工具使用等多个领域。最后，整个过程以多教师在线策略蒸馏（MOPD）告终。通过动态的在线策略 RL，单一学生模型从自身的输出中迭代学习，持续从专家教师那里接收精确的 token 级指导，从而无缝整合广泛的能力。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#5-deployment5. 部署

由于推理引擎正在不断更新和优化，本指南仅提供部署示例以供参考。为了获得最佳性能，我们强烈建议参考我们的推荐方法，以获取最新的最佳实践和最优性能。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#sglang-deploymentSGLang 部署

为了获得最佳性能，我们强烈建议使用此方法进行部署，该方法得到 SGLang 社区的官方支持。请参阅 SGLang MiMo-V2.5-Pro 食谱 (https://docs.sglang.io/cookbook/autoregressive/Xiaomi/MiMo-V2.5) 获取最新的部署指南。

以下是使用 SGLang 运行模型的示例，参考自 sgl-project/sglang#23808 (https://github.com/sgl-project/sglang/pull/23808)：

SGLANG_ENABLE_SPEC_V2=1
SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=256
python3 -m sglang.launch_server \
              --model-path XiaomiMiMo/MiMo-V2.5-Pro \
              --trust-remote-code \
              --pp-size 1 \
              --dp-size 2 \
              --ep-size 16 \
              --tp-size 16 \
              --moe-dense-tp-size 1 \
              --enable-dp-attention \
              --moe-a2a-backend deepep \
              --dist-init-addr ${LWS_LEADER_IP}:20000 \
              --node-rank ${LWS_WORKER_INDEX} \
              --nnodes ${LWS_GROUP_SIZE} \
              --page-size 64 \
              --attention-backend fa3 \
              --quantization fp8 \
              --mem-fraction-static 0.7 \
              --max-running-requests 128 \
              --cuda-graph-max-bs 64 \
              --chunked-prefill-size 32768 \
              --context-length 1048576 \
              --tokenizer-worker-num 64 \
              --speculative-algorithm EAGLE \
              --speculative-num-steps 3 \
              --speculative-eagle-topk 1 \
              --speculative-num-draft-tokens 4 \
              --enable-multi-layer-eagle \
              --host 0.0.0.0 \
              --port 9001 \
              --reasoning-parser mimo \
              --tool-call-parser mimo \
              --watchdog-timeout 3600 \
              --model-loader-extra-config '{"enable_multithread_load": "true","num_threads": 64}'

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#vllm-deploymentvLLM 部署

为了获得最佳性能，我们强烈建议使用此方法进行部署，该方法得到 vLLM 社区的官方支持。请参阅 vLLM MiMo-V2.5-Pro 食谱 (https://recipes.vllm.ai/XiaomiMiMo/MiMo-V2.5-Pro) 获取最新的部署指南。

对于本地部署，我们建议将采样参数设置为 temperature=1.0、top_p=0.95。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#citation引用

@misc{mimo2026v25pro,
  title={MiMo-V2.5-Pro},
  author={{Xiaomi MiMo Team}},
  year={2026},
  howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#contact联系方式

如有问题或反馈，请通过 [email protected] 联系我们，或加入我们的社区：

微信群 (https://work.weixin.qq.com/apph5/external_room/join/group_mng?plg_id=c417f99bd9014b5dd894daa8bfe19790&)
Discord (https://discord.gg/WX2R2uNp)
Telegram (https://t.me/+3T-I0pekOVIyNDBl)
Reddit (https://www.reddit.com/r/XiaomiMiMo_Official/)

XiaomiMiMo/MiMo-V2.5-Pro

XiaomiMiMo/MiMo-V2.5-Pro · Hugging Face

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#1-introduction1. 简介

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#2-model-downloads2. 模型下载

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#3-evaluation-results3. 评估结果

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#base-model-evaluation基础模型评估

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#long-context-evaluation长上下文评估

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#4-model-architecture–training-process4. 模型架构与训练过程

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#model-summary模型摘要

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#training-process训练过程

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#5-deployment5. 部署

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#sglang-deploymentSGLang 部署

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#vllm-deploymentvLLM 部署

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#citation引用

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro#contact联系方式

相似文章

小米发布SOTA模型MiMo-V2.5-Pro

MiMo-V2.5 & Pro

小米 Mimo-V2.5 发布，今天堪称开源权重模型的大日子

MiMo-V2.5 已发布

AI2推出的新MoE模型：EMO

提交意见反馈