@zephyr_z9: 这太重要了，我认为这是第一个实用的推测解码方法，部署在大型准前沿模型上 M…

X AI KOLs Following 2026/06/08 16:12 模型

speculative-decoding high-speed-inference trillion-parameter xiaomi tile-rt ultra-fast

摘要

小米 MiMo 发布 MiMo-V2.5-Pro-UltraSpeed，通过推测解码在 1 万亿参数模型上实现每秒超过 1000 个 token，这是首次大规模实际部署如此速度。

这太重要了我认为这是第一个实用的推测解码方法，部署在大型准前沿模型上巨大的解锁 @fi56622380 https://t.co/augiaFLDOK

查看原文

查看缓存全文

缓存时间: 2026/06/09 10:45

这实在太大了我认为这是首个在大型准前沿模型上部署的有用投机解码方法巨大解锁 @fi56622380 https://t.co/augiaFLDOK

Xiaomi MiMo (@XiaomiMiMo): 🚀 1万亿参数模型实现每秒1000+ tokens！🚀

我们激动地宣布，与@TileRT_AI合作推出Xiaomi MiMo-V2.5-Pro-UltraSpeed，在1万亿参数模型上首次突破每秒1000 tokens的输出速度！

这不是Cerebras那样的晶圆级集成。也不是纯粹…

相似文章

中国小米的MiMo现在比ChatGPT和Claude快15倍（4分钟阅读）

TLDR AI

小米通过FP4量化和DFlash投机解码，在商用8-GPU节点上实现了其万亿参数模型MiMo-V2.5-Pro-UltraSpeed每秒超过1000 tokens的推理速度，性能超过GPT-5.5和Claude Opus 10倍以上。

小米刚刚声称在标准8-GPU服务器上对1T模型实现了1000+ tps

Reddit r/LocalLLaMA

小米与TileRT合作发布了MiMo-V2.5-Pro-UltraSpeed，在1万亿参数模型上实现了超过1000 tokens/s的解码速度，支持实时AI交互，并加速了编程代理和推理任务。

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

Reddit r/LocalLLaMA

打包双推理（PTI）是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术，它利用了llama.cpp中的权重共享，无需草稿模型或额外VRAM。

XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending

小米发布了 MiMo-V2.5-Pro，这是一个开源的 MoE 语言模型，拥有 1.02T 总参数和 1M token 上下文长度，专为复杂的智能体（Agent）和软件工程任务进行了优化。

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

Reddit r/LocalLLaMA

一位开发者展示了如何使用llama.cpp，通过MoE卸载和TurboQuant KV缓存量化技术，在老款GTX 1080（8GB显存）上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型，达到24+ tok/s的推理速度，并揭示了针对Gemma MTP投机解码的优化技巧。

相似文章

中国小米的MiMo现在比ChatGPT和Claude快15倍（4分钟阅读）

小米刚刚声称在标准8-GPU服务器上对1T模型实现了1000+ tps

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

XiaomiMiMo/MiMo-V2.5-Pro

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

提交意见反馈