中国小米的MiMo现在比ChatGPT和Claude快15倍(4分钟阅读)

TLDR AI 模型

摘要

小米通过FP4量化和DFlash投机解码,在商用8-GPU节点上实现了其万亿参数模型MiMo-V2.5-Pro-UltraSpeed每秒超过1000 tokens的推理速度,性能超过GPT-5.5和Claude Opus 10倍以上。

小米与推理合作伙伴TileRT创建了一个万亿参数模型MiMo-V2.5-Pro-UltraSpeed,在标准8-GPU商用节点上实现每秒1000 tokens的推理速度。该速度是通过对模型专家层进行FP4量化以及采用DFlash投机解码实现的——后者一次提议一整块token,而非逐一进行。该模型将于6月9日至6月23日期间通过有限的API试用提供。其费用为标准MiMo-V2.5-Pro费率的3倍,但输出量约为10倍。
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:23

# 中国小米MiMo比ChatGPT和Claude快15倍 来源: https://decrypt.co/370449/xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude #### 简述 - 小米与推理合作伙伴TileRT在1万亿参数模型上突破了每秒1000个token的速度,这是该规模模型首次达到这一水平——使用的只是标准的8 GPU商用节点,而非定制芯片。 - 这一速度源于对模型专家层采用FP4量化,以及DFlash投机解码技术——后者一次性生成整块token的提案,而非逐token生成。 - 有限的API试用将于6月9日至6月23日开放,定价为标准MiMo费率的3倍,而生成速度约为10倍。 大多数人知道小米是因为它是中国手机品牌。那个造廉价电动滑板车和空气净化器的公司。听起来不像会在周一早上打破AI推理速度纪录的那种公司。 但事实如此。小米刚刚发布了 **MiMo-V2.5-Pro-UltraSpeed**(https://mimo.xiaomi.com/blog/mimo-tilert-1000tps),这是其万亿参数旗舰模型的一个服务模式,实现了超过每秒1000 token的速度——在演示中峰值接近1200 token。 参数是定义模型如何思考的内部数值权重——参数越多,模型能识别的模式越复杂。Token是模型读写文本的基本单位,平均每个token约等于四分之三个单词。 小米仅凭一个8 GPU商用节点就做到了这一点。标准硬件,没有定制芯片。这改变了谁能真正在生产环境中部署这种速度的计算方式。 用通俗的话说:根据 **Artificial Analysis**(https://artificialanalysis.ai/)的数据,GPT-5.5——大多数ChatGPT用户实际对话的对象——速度为每秒68 token。Claude Opus 4.6大约为每秒71 token,其低端模型Haiku达到每秒98 token。Gemini Flash达到每秒192 token。而MiMo-V2.5-Pro-UltraSpeed能实现每秒1000 token,同时该模型在编程基准测试上与Opus相当。 Cerebras和Groq完全围绕这个问题构建了业务。Cerebras设计了一款餐盘大小的晶圆级芯片,内置44GB片上内存,以消除拖慢GPU推理的带宽瓶颈。它在Meta的Llama 3.1 405B上达到了**每秒969 token**(https://www.cerebras.ai/press-release/cerebras-inference-llama-405b)——令人印象深刻,但那是个4050亿参数模型,规模不到MiMo-V2.5-Pro的一半。Groq的定制**语言处理单元**(https://groq.com/lpu-architecture)架构根据模型不同,速度上限约为每秒300到750 token。 这两家公司的硬件都无法让你今晚就从AWS租到。 小米仅通过软件在商用GPU上实现了这一速度——结合了模型层面的技巧和专用推理引擎TileRT。 ## 幕后原理 两项技术支撑了这一速度。第一项技术叫作 **FP4量化**:不是让模型以完整的8位或16位数值精度运行,而是将专家层——构成1万亿参数的大部分——压缩到4位。内存占用降低,带宽压力降低,速度提升。代价通常是轻微的质量下降。小米的解决方案很精准:只有专家层被压缩,其余部分保持全精度。采用这种方法,质量损失被描述为接近零。 第二项技术是 **DFlash投机解码**。普通的投机解码由一个小型草稿模型猜测接下来的几个token,然后由大模型并行验证。DFlash跳过了顺序草稿过程——它在一次前向传播中填充整个遮罩位置的区块。在编程任务中,大模型每轮验证平均接受8个提案token中的6.3个。这意味着一步确认6个token,而不是逐一确认。 TileRT将它们整合在一起。它保持整个计算流水线持续驻留在GPU内——没有每次算子启动的开销,没有执行间隙。 小米将这种方法称为“极端模型-系统协同设计”,这个说法很准确:单独哪项技术都无法达到每秒1000 token,但所有方法的协同效应实现了这一目标。 **MiMo-V2.5-Pro**(https://decrypt.co/365184/xiaomi-mimo-2-5-pro-ai-see-hear-act-one-model)是一个前沿级模型。我们曾在4月份报道过V2.5 Pro的发布——它在大多数编程基准测试上与Claude Opus相当,运行成本约为每百万token输入0.43美元、输出0.87美元。而Opus是每百万token输入5美元、输出25美元。 UltraSpeed加速的正是那个MiMo V2.5 Pro模型,不是缩水版。 足够快的推理会改变你使用模型的方式。你可以并行运行数十条推理路径,而无需等待一个答案。欺诈检测、交易信号生成、实时智能体循环——所有这些都有严格的延迟限制,每秒60 token无法满足。在每秒1000 token时,它们就能满足了。 小米对这一速度的定价为标准MiMo-V2.5-Pro费率的3倍,输出速度约为10倍。API试用期为6月9日至23日,基于申请制,优先考虑企业和专业开发者。FP4-DFlash检查点已在 **Hugging Face**(https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash)上开源,供社区测试。 ### 每日简报通讯 每天从当下最重要的头条新闻开始,外加原创专题、播客、视频等更多内容。

相似文章

GPT-4o mini:推进成本高效的智能模型

OpenAI Blog

OpenAI 发布 GPT-4o mini,一款成本高效的小型模型,每百万输入令牌价格仅为 15 美分,比 GPT-3.5 Turbo 便宜 60%,在 MMLU 上表现强劲(82%),在推理、数学和编码任务上超越 Gemini Flash 和 Claude Haiku 等竞争对手。