中国小米的MiMo现在比ChatGPT和Claude快15倍（4分钟阅读）

TLDR AI 2026/06/09 00:00 模型

xaiomi-mimo inference-speed quantization speculative-decoding trillion-parameter tile-rt speed-record

摘要

小米通过FP4量化和DFlash投机解码，在商用8-GPU节点上实现了其万亿参数模型MiMo-V2.5-Pro-UltraSpeed每秒超过1000 tokens的推理速度，性能超过GPT-5.5和Claude Opus 10倍以上。

小米与推理合作伙伴TileRT创建了一个万亿参数模型MiMo-V2.5-Pro-UltraSpeed，在标准8-GPU商用节点上实现每秒1000 tokens的推理速度。该速度是通过对模型专家层进行FP4量化以及采用DFlash投机解码实现的——后者一次提议一整块token，而非逐一进行。该模型将于6月9日至6月23日期间通过有限的API试用提供。其费用为标准MiMo-V2.5-Pro费率的3倍，但输出量约为10倍。

查看原文

查看缓存全文

缓存时间: 2026/06/10 00:23

# 中国小米MiMo比ChatGPT和Claude快15倍来源: https://decrypt.co/370449/xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude #### 简述 - 小米与推理合作伙伴TileRT在1万亿参数模型上突破了每秒1000个token的速度，这是该规模模型首次达到这一水平——使用的只是标准的8 GPU商用节点，而非定制芯片。 - 这一速度源于对模型专家层采用FP4量化，以及DFlash投机解码技术——后者一次性生成整块token的提案，而非逐token生成。 - 有限的API试用将于6月9日至6月23日开放，定价为标准MiMo费率的3倍，而生成速度约为10倍。大多数人知道小米是因为它是中国手机品牌。那个造廉价电动滑板车和空气净化器的公司。听起来不像会在周一早上打破AI推理速度纪录的那种公司。但事实如此。小米刚刚发布了 **MiMo-V2.5-Pro-UltraSpeed**（https://mimo.xiaomi.com/blog/mimo-tilert-1000tps），这是其万亿参数旗舰模型的一个服务模式，实现了超过每秒1000 token的速度——在演示中峰值接近1200 token。参数是定义模型如何思考的内部数值权重——参数越多，模型能识别的模式越复杂。Token是模型读写文本的基本单位，平均每个token约等于四分之三个单词。小米仅凭一个8 GPU商用节点就做到了这一点。标准硬件，没有定制芯片。这改变了谁能真正在生产环境中部署这种速度的计算方式。用通俗的话说：根据 **Artificial Analysis**（https://artificialanalysis.ai/）的数据，GPT-5.5——大多数ChatGPT用户实际对话的对象——速度为每秒68 token。Claude Opus 4.6大约为每秒71 token，其低端模型Haiku达到每秒98 token。Gemini Flash达到每秒192 token。而MiMo-V2.5-Pro-UltraSpeed能实现每秒1000 token，同时该模型在编程基准测试上与Opus相当。 Cerebras和Groq完全围绕这个问题构建了业务。Cerebras设计了一款餐盘大小的晶圆级芯片，内置44GB片上内存，以消除拖慢GPU推理的带宽瓶颈。它在Meta的Llama 3.1 405B上达到了**每秒969 token**（https://www.cerebras.ai/press-release/cerebras-inference-llama-405b）——令人印象深刻，但那是个4050亿参数模型，规模不到MiMo-V2.5-Pro的一半。Groq的定制**语言处理单元**（https://groq.com/lpu-architecture）架构根据模型不同，速度上限约为每秒300到750 token。这两家公司的硬件都无法让你今晚就从AWS租到。小米仅通过软件在商用GPU上实现了这一速度——结合了模型层面的技巧和专用推理引擎TileRT。 ## 幕后原理两项技术支撑了这一速度。第一项技术叫作 **FP4量化**：不是让模型以完整的8位或16位数值精度运行，而是将专家层——构成1万亿参数的大部分——压缩到4位。内存占用降低，带宽压力降低，速度提升。代价通常是轻微的质量下降。小米的解决方案很精准：只有专家层被压缩，其余部分保持全精度。采用这种方法，质量损失被描述为接近零。第二项技术是 **DFlash投机解码**。普通的投机解码由一个小型草稿模型猜测接下来的几个token，然后由大模型并行验证。DFlash跳过了顺序草稿过程——它在一次前向传播中填充整个遮罩位置的区块。在编程任务中，大模型每轮验证平均接受8个提案token中的6.3个。这意味着一步确认6个token，而不是逐一确认。 TileRT将它们整合在一起。它保持整个计算流水线持续驻留在GPU内——没有每次算子启动的开销，没有执行间隙。小米将这种方法称为“极端模型-系统协同设计”，这个说法很准确：单独哪项技术都无法达到每秒1000 token，但所有方法的协同效应实现了这一目标。 **MiMo-V2.5-Pro**（https://decrypt.co/365184/xiaomi-mimo-2-5-pro-ai-see-hear-act-one-model）是一个前沿级模型。我们曾在4月份报道过V2.5 Pro的发布——它在大多数编程基准测试上与Claude Opus相当，运行成本约为每百万token输入0.43美元、输出0.87美元。而Opus是每百万token输入5美元、输出25美元。 UltraSpeed加速的正是那个MiMo V2.5 Pro模型，不是缩水版。足够快的推理会改变你使用模型的方式。你可以并行运行数十条推理路径，而无需等待一个答案。欺诈检测、交易信号生成、实时智能体循环——所有这些都有严格的延迟限制，每秒60 token无法满足。在每秒1000 token时，它们就能满足了。小米对这一速度的定价为标准MiMo-V2.5-Pro费率的3倍，输出速度约为10倍。API试用期为6月9日至23日，基于申请制，优先考虑企业和专业开发者。FP4-DFlash检查点已在 **Hugging Face**（https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash）上开源，供社区测试。 ### 每日简报通讯每天从当下最重要的头条新闻开始，外加原创专题、播客、视频等更多内容。

中国小米的MiMo现在比ChatGPT和Claude快15倍（4分钟阅读）

相似文章

小米刚刚声称在标准8-GPU服务器上对1T模型实现了1000+ tps

@zephyr_z9: 这太重要了，我认为这是第一个实用的推测解码方法，部署在大型准前沿模型上 M…

小米新开源、智能体式AI编码工具MiMo Code在超长200+步骤任务中击败Claude Code（14分钟阅读）

使用小米MiMo v2.5 Pro处理300亿+ token：从Claude/GPT转向智能浏览器自动化（以及保持稳定的.md工作流）

@heyshrutimishra：中国以低40-60%的token成本追平美国前沿代码AI！小米刚发布MiMo-V2.5-Pro…

提交意见反馈