XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
摘要
XiaomiMiMo 发布 MiMo-V2.5-Pro-FP4-DFlash,这是一款 FP4 量化的 MoE 模型,采用块扩散推测解码,以减少万亿参数推理的内存和带宽。
查看缓存全文
缓存时间: 2026/06/12 02:53
小米MiMo/MiMo-V2.5-Pro-FP4-DFlash · Hugging Face
来源:https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
Xiaomi-MiMo
MiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型:
- 一个FP4量化骨干,对MoE专家进行MXFP4量化,同时保持模型其余部分为更高精度,以近乎无损的质量缩小模型大小和内存带宽压力。
- 一个BF16 DFlash起草器,用于块扩散推测解码,每次前向传播提出整个token块,让骨干网一步完成验证。
两者共同降低了每参数位宽和骨干前向传播次数,这是万亿参数解码的两大主要成本。
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#1-introduction1. 引言
在万亿参数(1T)规模下,即使是8位(FP8/INT8)推理也会带来严重的内存占用和内存带宽成本。降低参数位宽直接转化为更快的解码。因此我们采用了FP4量化和块扩散推测解码。本版本的主要特点:
- 仅专家FP4量化:对整个模型进行统一的FP4转换往往会降低复杂推理和代码的准确性和泛化能力。鉴于MiMo-V2.5-Pro的MoE架构中专家持有绝大多数参数且对量化的容忍度最佳,我们仅将MoE专家量化为FP4(MXFP4),其他模块保持原始精度。通过FP4 QAT,模型在保持近乎无损能力的同时大幅缩小体积并充分利用硬件带宽。
- DFlash推测解码:一个轻量级块扩散起草器在单次前向传播中填充整个屏蔽位置的块,消除了传统推测解码的串行自回归瓶颈,同时骨干网的验证保证了输出质量。
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#2-fp4-quantization2. FP4量化
我们仅将MoE专家量化为MXFP4(块大小32),注意力投影和其他模块保持更高精度(每层的注意力o_proj不被包含在FP4中)。通过FP4 QAT,质量保持接近FP8基线:
fp4对比
基准测试MiMo-V2.5-Pro-FP8MiMo-V2.5-Pro-MXFP4Δ通用AgentClaw-Eval (pass^3)63.867.8+6.27%人类最后的考试48.047.0-2.08%人类最后的考试(无工具)34.033.0-2.94%代码AgentSWE-Bench Pro57.258.8+2.80%SWE-bench Verified78.977.4-1.90%
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#3-block-diffusion-speculative-decoding-dflash3. 块扩散推测解码 (DFlash)
传统推测解码依赖一个小型起草模型猜测下一个token,然后大模型进行验证;拒绝采样验证保持输出无损。其瓶颈在于起草质量决定了接受率,而更强的起草器需要更多计算。
为了打破这种权衡,我们采用了块级掩码并行预测方法DFlash:起草器在一次前向传播中填充整个掩码位置的块。我们针对万亿规模MoE和长上下文服务进行了定制优化,使用了Muon二阶优化器和模型自蒸馏,即使小掩码块也能保持高接受率,同时将起草阶段成本推向极限:
- 起草器全程使用滑动窗口注意力(SWA),与MiMo-V2系列的SWA设计自然对齐。起草不再依赖于完整前缀,因此每个预测的计算量从随上下文长度线性变为常数。
- 训练期间,掩码信号在本地GPU分片上采样,因此单个序列在一个步骤中产生数万个独立训练信号,覆盖不同上下文长度的位置,与MiMo-V2系列的长上下文能力保持一致,同时避免了跨设备通信开销。
在实际部署中,我们进一步将掩码块大小限制为8,以降低验证开销并提高并发性。
场景接受长度WebDev6.30Math5005.56HumanEval4.54MT-Bench3.18SWE-Bench4.29
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#4-model-summary4. 模型摘要
组件骨干网DFlash起草器架构MiMoV2ForCausalLMDFlashDraftModel总/激活参数1.02T / 42B5层起草器隐藏大小61446144层数705注意力头数128128KV头数8 (GQA)8 (GQA)头维度 (QK / V)192 / 128128 / 128SWA窗口大小1281024块大小—8捕获的骨干层—[0, 15, 31, 47, 69]骨干RoPE基数5,000,0005,000,000精度MXFP4(专家)混合BF16最大上下文长度1M—
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#5-deployment5. 部署
SGLang支持使用FP4骨干网的DFlash推理。通过推测解码标志将起草器与骨干网一起启动,并继承骨干网的张量/专家并行拓扑。
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#sglang-deploymentSGLang部署
以下是用SGLang运行模型的示例。将--model指向此存储库,将--speculative-draft-model-path指向其dflash/子目录。
python3 -m sglang.launch_server \ --model MiMo-V2.5-Pro-FP4-DFlash \ --speculative-algorithm DFLASH \ --speculative-draft-model-path MiMo-V2.5-Pro-FP4-DFlash/dflash \ --speculative-num-draft-tokens 8 \ --ep-size 16 \ --tensor-parallel-size 16 \ --data-parallel-size 2 \ --enable-dp-attention \ --enable-dp-lm-head \ --quantization fp8 \ --attention-backend fa3 \ --moe-dense-tp-size 1 \ --dtype bfloat16 \ --mem-fraction-static 0.65 \ --context-length 65536 \ --page-size 1 \ --trust-remote-code \ --disable-overlap-schedule \ --skip-server-warmup \ --dist-init-addr ${MASTER_ADDR}:20000 \ --nnodes ${WORLD_SIZE} \ --node-rank ${RANK} \ --host 0.0.0.0 \ --port 29999
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#citation引用
@misc{mimo2026v25pro_fp4dflash, title={MiMo-V2.5-Pro-FP4-DFlash}, author={{Xiaomi MiMo Team}}, year={2026}, howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}}, }
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash#contact联系方式
如有问题或反馈,请发送邮件至[email protected]或加入我们的社区:
- 微信群 (https://work.weixin.qq.com/apph5/external_room/join/group_mng?plg_id=c417f99bd9014b5dd894daa8bfe19790&)
- Discord (https://discord.gg/WX2R2uNp)
- Telegram (https://t.me/+3T-I0pekOVIyNDBl)
- Reddit (https://www.reddit.com/r/XiaomiMiMo_Official/)
相似文章
XiaomiMiMo/MiMo-V2.5-Pro
小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。
@zephyr_z9: 这太重要了,我认为这是第一个实用的推测解码方法,部署在大型准前沿模型上 M…
小米 MiMo 发布 MiMo-V2.5-Pro-UltraSpeed,通过推测解码在 1 万亿参数模型上实现每秒超过 1000 个 token,这是首次大规模实际部署如此速度。
MiMo-V2.5-coder
小米 MiMo-V2.5 模型的量化 GGUF 构建版本,专为在 128GB Apple Silicon 系统上进行编码和工具调用而优化,优先确保工具调用的可靠性和代码生成。
小米发布SOTA模型MiMo-V2.5-Pro
小米推出MiMo-V2.5-Pro,宣称实现最先进性能
中国小米的MiMo现在比ChatGPT和Claude快15倍(4分钟阅读)
小米通过FP4量化和DFlash投机解码,在商用8-GPU节点上实现了其万亿参数模型MiMo-V2.5-Pro-UltraSpeed每秒超过1000 tokens的推理速度,性能超过GPT-5.5和Claude Opus 10倍以上。