XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

Hugging Face Models Trending 模型

摘要

XiaomiMiMo 发布 MiMo-V2.5-Pro-FP4-DFlash,这是一款 FP4 量化的 MoE 模型,采用块扩散推测解码,以减少万亿参数推理的内存和带宽。

任务:文本生成 Tags: transformers, safetensors, mimo_v2, 文本生成, 智能体, 长上下文, 代码, mxfp4, fp4量化, dflash, 推测解码, 块扩散, 对话式, custom_code, 英文, 中文, license:mit, 8位, fp8, region:us
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:53

小米MiMo/MiMo-V2.5-Pro-FP4-DFlash · Hugging Face

来源:https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

Xiaomi-MiMo

MiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型:

  • 一个FP4量化骨干,对MoE专家进行MXFP4量化,同时保持模型其余部分为更高精度,以近乎无损的质量缩小模型大小和内存带宽压力。
  • 一个BF16 DFlash起草器,用于块扩散推测解码,每次前向传播提出整个token块,让骨干网一步完成验证。

两者共同降低了每参数位宽和骨干前向传播次数,这是万亿参数解码的两大主要成本。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#1-introduction1. 引言

在万亿参数(1T)规模下,即使是8位(FP8/INT8)推理也会带来严重的内存占用和内存带宽成本。降低参数位宽直接转化为更快的解码。因此我们采用了FP4量化和块扩散推测解码。本版本的主要特点:

  • 仅专家FP4量化:对整个模型进行统一的FP4转换往往会降低复杂推理和代码的准确性和泛化能力。鉴于MiMo-V2.5-Pro的MoE架构中专家持有绝大多数参数且对量化的容忍度最佳,我们仅将MoE专家量化为FP4(MXFP4),其他模块保持原始精度。通过FP4 QAT,模型在保持近乎无损能力的同时大幅缩小体积并充分利用硬件带宽。
  • DFlash推测解码:一个轻量级块扩散起草器在单次前向传播中填充整个屏蔽位置的块,消除了传统推测解码的串行自回归瓶颈,同时骨干网的验证保证了输出质量。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#2-fp4-quantization2. FP4量化

我们仅将MoE专家量化为MXFP4(块大小32),注意力投影和其他模块保持更高精度(每层的注意力o_proj不被包含在FP4中)。通过FP4 QAT,质量保持接近FP8基线:

fp4对比

基准测试MiMo-V2.5-Pro-FP8MiMo-V2.5-Pro-MXFP4Δ通用AgentClaw-Eval (pass^3)63.867.8+6.27%人类最后的考试48.047.0-2.08%人类最后的考试(无工具)34.033.0-2.94%代码AgentSWE-Bench Pro57.258.8+2.80%SWE-bench Verified78.977.4-1.90%

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#3-block-diffusion-speculative-decoding-dflash3. 块扩散推测解码 (DFlash)

传统推测解码依赖一个小型起草模型猜测下一个token,然后大模型进行验证;拒绝采样验证保持输出无损。其瓶颈在于起草质量决定了接受率,而更强的起草器需要更多计算。

为了打破这种权衡,我们采用了块级掩码并行预测方法DFlash:起草器在一次前向传播中填充整个掩码位置的块。我们针对万亿规模MoE和长上下文服务进行了定制优化,使用了Muon二阶优化器和模型自蒸馏,即使小掩码块也能保持高接受率,同时将起草阶段成本推向极限:

  • 起草器全程使用滑动窗口注意力(SWA),与MiMo-V2系列的SWA设计自然对齐。起草不再依赖于完整前缀,因此每个预测的计算量从随上下文长度线性变为常数。
  • 训练期间,掩码信号在本地GPU分片上采样,因此单个序列在一个步骤中产生数万个独立训练信号,覆盖不同上下文长度的位置,与MiMo-V2系列的长上下文能力保持一致,同时避免了跨设备通信开销。

在实际部署中,我们进一步将掩码块大小限制为8,以降低验证开销并提高并发性。

场景接受长度WebDev6.30Math5005.56HumanEval4.54MT-Bench3.18SWE-Bench4.29

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#4-model-summary4. 模型摘要

组件骨干网DFlash起草器架构MiMoV2ForCausalLMDFlashDraftModel总/激活参数1.02T / 42B5层起草器隐藏大小61446144层数705注意力头数128128KV头数8 (GQA)8 (GQA)头维度 (QK / V)192 / 128128 / 128SWA窗口大小1281024块大小—8捕获的骨干层—[0, 15, 31, 47, 69]骨干RoPE基数5,000,0005,000,000精度MXFP4(专家)混合BF16最大上下文长度1M—

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#5-deployment5. 部署

SGLang支持使用FP4骨干网的DFlash推理。通过推测解码标志将起草器与骨干网一起启动,并继承骨干网的张量/专家并行拓扑。

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#sglang-deploymentSGLang部署

以下是用SGLang运行模型的示例。将--model指向此存储库,将--speculative-draft-model-path指向其dflash/子目录。

python3 -m sglang.launch_server \ --model MiMo-V2.5-Pro-FP4-DFlash \ --speculative-algorithm DFLASH \ --speculative-draft-model-path MiMo-V2.5-Pro-FP4-DFlash/dflash \ --speculative-num-draft-tokens 8 \ --ep-size 16 \ --tensor-parallel-size 16 \ --data-parallel-size 2 \ --enable-dp-attention \ --enable-dp-lm-head \ --quantization fp8 \ --attention-backend fa3 \ --moe-dense-tp-size 1 \ --dtype bfloat16 \ --mem-fraction-static 0.65 \ --context-length 65536 \ --page-size 1 \ --trust-remote-code \ --disable-overlap-schedule \ --skip-server-warmup \ --dist-init-addr ${MASTER_ADDR}:20000 \ --nnodes ${WORLD_SIZE} \ --node-rank ${RANK} \ --host 0.0.0.0 \ --port 29999

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#citation引用

@misc{mimo2026v25pro_fp4dflash, title={MiMo-V2.5-Pro-FP4-DFlash}, author={{Xiaomi MiMo Team}}, year={2026}, howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}}, }

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#contact联系方式

如有问题或反馈,请发送邮件至[email protected]或加入我们的社区:

  • 微信群 (https://work.weixin.qq.com/apph5/external_room/join/group_mng?plg_id=c417f99bd9014b5dd894daa8bfe19790&)
  • Discord (https://discord.gg/WX2R2uNp)
  • Telegram (https://t.me/+3T-I0pekOVIyNDBl)
  • Reddit (https://www.reddit.com/r/XiaomiMiMo_Official/)

相似文章

XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending

小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。

MiMo-V2.5-coder

Reddit r/LocalLLaMA

小米 MiMo-V2.5 模型的量化 GGUF 构建版本,专为在 128GB Apple Silicon 系统上进行编码和工具调用而优化,优先确保工具调用的可靠性和代码生成。