XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

Hugging Face Models Trending 2026/06/08 04:32 模型

model-release fp4-quantization speculative-decoding moex xiao-mi ai-inference open-source

摘要

XiaomiMiMo 发布 MiMo-V2.5-Pro-FP4-DFlash，这是一款 FP4 量化的 MoE 模型，采用块扩散推测解码，以减少万亿参数推理的内存和带宽。

任务：文本生成 Tags: transformers, safetensors, mimo_v2, 文本生成, 智能体, 长上下文, 代码, mxfp4, fp4量化, dflash, 推测解码, 块扩散, 对话式, custom_code, 英文, 中文, license:mit, 8位, fp8, region:us

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:53

小米MiMo/MiMo-V2.5-Pro-FP4-DFlash · Hugging Face

来源：https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

Xiaomi-MiMo

MiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型：

一个FP4量化骨干，对MoE专家进行MXFP4量化，同时保持模型其余部分为更高精度，以近乎无损的质量缩小模型大小和内存带宽压力。
一个BF16 DFlash起草器，用于块扩散推测解码，每次前向传播提出整个token块，让骨干网一步完成验证。

两者共同降低了每参数位宽和骨干前向传播次数，这是万亿参数解码的两大主要成本。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#1-introduction1. 引言

在万亿参数（1T）规模下，即使是8位（FP8/INT8）推理也会带来严重的内存占用和内存带宽成本。降低参数位宽直接转化为更快的解码。因此我们采用了FP4量化和块扩散推测解码。本版本的主要特点：

仅专家FP4量化：对整个模型进行统一的FP4转换往往会降低复杂推理和代码的准确性和泛化能力。鉴于MiMo-V2.5-Pro的MoE架构中专家持有绝大多数参数且对量化的容忍度最佳，我们仅将MoE专家量化为FP4（MXFP4），其他模块保持原始精度。通过FP4 QAT，模型在保持近乎无损能力的同时大幅缩小体积并充分利用硬件带宽。
DFlash推测解码：一个轻量级块扩散起草器在单次前向传播中填充整个屏蔽位置的块，消除了传统推测解码的串行自回归瓶颈，同时骨干网的验证保证了输出质量。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#2-fp4-quantization2. FP4量化

我们仅将MoE专家量化为MXFP4（块大小32），注意力投影和其他模块保持更高精度（每层的注意力o_proj不被包含在FP4中）。通过FP4 QAT，质量保持接近FP8基线：

fp4对比

基准测试MiMo-V2.5-Pro-FP8MiMo-V2.5-Pro-MXFP4Δ通用AgentClaw-Eval (pass^3)63.867.8+6.27%人类最后的考试48.047.0-2.08%人类最后的考试（无工具）34.033.0-2.94%代码AgentSWE-Bench Pro57.258.8+2.80%SWE-bench Verified78.977.4-1.90%

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#3-block-diffusion-speculative-decoding-dflash3. 块扩散推测解码 (DFlash)

传统推测解码依赖一个小型起草模型猜测下一个token，然后大模型进行验证；拒绝采样验证保持输出无损。其瓶颈在于起草质量决定了接受率，而更强的起草器需要更多计算。

为了打破这种权衡，我们采用了块级掩码并行预测方法DFlash：起草器在一次前向传播中填充整个掩码位置的块。我们针对万亿规模MoE和长上下文服务进行了定制优化，使用了Muon二阶优化器和模型自蒸馏，即使小掩码块也能保持高接受率，同时将起草阶段成本推向极限：

起草器全程使用滑动窗口注意力（SWA），与MiMo-V2系列的SWA设计自然对齐。起草不再依赖于完整前缀，因此每个预测的计算量从随上下文长度线性变为常数。
训练期间，掩码信号在本地GPU分片上采样，因此单个序列在一个步骤中产生数万个独立训练信号，覆盖不同上下文长度的位置，与MiMo-V2系列的长上下文能力保持一致，同时避免了跨设备通信开销。

在实际部署中，我们进一步将掩码块大小限制为8，以降低验证开销并提高并发性。

场景接受长度WebDev6.30Math5005.56HumanEval4.54MT-Bench3.18SWE-Bench4.29

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#4-model-summary4. 模型摘要

组件骨干网DFlash起草器架构MiMoV2ForCausalLMDFlashDraftModel总/激活参数1.02T / 42B5层起草器隐藏大小61446144层数705注意力头数128128KV头数8 (GQA)8 (GQA)头维度 (QK / V)192 / 128128 / 128SWA窗口大小1281024块大小—8捕获的骨干层—[0, 15, 31, 47, 69]骨干RoPE基数5,000,0005,000,000精度MXFP4（专家）混合BF16最大上下文长度1M—

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#5-deployment5. 部署

SGLang支持使用FP4骨干网的DFlash推理。通过推测解码标志将起草器与骨干网一起启动，并继承骨干网的张量/专家并行拓扑。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#sglang-deploymentSGLang部署

以下是用SGLang运行模型的示例。将--model指向此存储库，将--speculative-draft-model-path指向其dflash/子目录。

python3 -m sglang.launch_server \ --model MiMo-V2.5-Pro-FP4-DFlash \ --speculative-algorithm DFLASH \ --speculative-draft-model-path MiMo-V2.5-Pro-FP4-DFlash/dflash \ --speculative-num-draft-tokens 8 \ --ep-size 16 \ --tensor-parallel-size 16 \ --data-parallel-size 2 \ --enable-dp-attention \ --enable-dp-lm-head \ --quantization fp8 \ --attention-backend fa3 \ --moe-dense-tp-size 1 \ --dtype bfloat16 \ --mem-fraction-static 0.65 \ --context-length 65536 \ --page-size 1 \ --trust-remote-code \ --disable-overlap-schedule \ --skip-server-warmup \ --dist-init-addr ${MASTER_ADDR}:20000 \ --nnodes ${WORLD_SIZE} \ --node-rank ${RANK} \ --host 0.0.0.0 \ --port 29999

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#citation引用

@misc{mimo2026v25pro_fp4dflash, title={MiMo-V2.5-Pro-FP4-DFlash}, author={{Xiaomi MiMo Team}}, year={2026}, howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}}, }

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#contact联系方式

如有问题或反馈，请发送邮件至[email protected]或加入我们的社区：

微信群 (https://work.weixin.qq.com/apph5/external_room/join/group_mng?plg_id=c417f99bd9014b5dd894daa8bfe19790&)
Discord (https://discord.gg/WX2R2uNp)
Telegram (https://t.me/+3T-I0pekOVIyNDBl)
Reddit (https://www.reddit.com/r/XiaomiMiMo_Official/)

XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

小米MiMo/MiMo-V2.5-Pro-FP4-DFlash · Hugging Face

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#1-introduction1. 引言

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#2-fp4-quantization2. FP4量化

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#3-block-diffusion-speculative-decoding-dflash3. 块扩散推测解码 (DFlash)

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#4-model-summary4. 模型摘要

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#5-deployment5. 部署

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#sglang-deploymentSGLang部署

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#citation引用

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#contact联系方式

相似文章

XiaomiMiMo/MiMo-V2.5-Pro

@zephyr_z9: 这太重要了，我认为这是第一个实用的推测解码方法，部署在大型准前沿模型上 M…

MiMo-V2.5-coder

小米发布SOTA模型MiMo-V2.5-Pro

中国小米的MiMo现在比ChatGPT和Claude快15倍（4分钟阅读）

提交意见反馈