小米与TileRT在标准商用GPU上实现万亿参数模型推理速度超1000 TPS。定制芯片的时代结束了?
摘要
小米与TileRT使用标准商用GPU,在万亿参数模型上实现了每秒超过1000个token的推理速度,这显示了定制芯片之外的一个重要替代方案。
暂无内容
相似文章
小米刚刚声称在标准8-GPU服务器上对1T模型实现了1000+ tps
小米与TileRT合作发布了MiMo-V2.5-Pro-UltraSpeed,在1万亿参数模型上实现了超过1000 tokens/s的解码速度,支持实时AI交互,并加速了编程代理和推理任务。
中国小米的MiMo现在比ChatGPT和Claude快15倍(4分钟阅读)
小米通过FP4量化和DFlash投机解码,在商用8-GPU节点上实现了其万亿参数模型MiMo-V2.5-Pro-UltraSpeed每秒超过1000 tokens的推理速度,性能超过GPT-5.5和Claude Opus 10倍以上。
@draecomino: Cerebras 创下新纪录:万亿参数模型,每秒 1000 个 token
Cerebras 宣布,在企业试用中,其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token,并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。
@rohanpaul_ai: 我不得不亲自测试才相信这难以置信的推理速度。单个用户使用标准数据中心 GPU 达到 3000 tokens/s。…
Kog AI 在 8 块 AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度,在 8 块 NVIDIA H200 上达到 2100 tokens/s,利用了 GPU 令牌生成中隐藏的效率差距。
使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型
一位社区成员详细介绍了这款定制 PC 组装方案,利用已停产的 Intel Optane Persistent Memory,成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。