@draecomino: Cerebras 创下新纪录：万亿参数模型，每秒 1000 个 token

X AI KOLs Timeline 2026/05/19 18:23 模型

cerebras trillion-parameter kimi-k2-6 inference-speed frontier-model enterprise-trials artificial-analysis

摘要

Cerebras 宣布，在企业试用中，其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token，并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。

Cerebras 创下新纪录：万亿参数模型，每秒 1000 个 token

查看原文

查看缓存全文

缓存时间: 2026/05/19 20:49

Cerebras 创造新纪录：万亿参数模型实现每秒 1000 个 token

Cerebras (@cerebras): Cerebras 目前正在企业试用中运行 Kimi K2.6——一个万亿参数模型。

以约每秒 1000 个 token 的速度，这是 Artificial Analysis @ArtificialAnlys 测量过的性能最快的前沿模型。

相似文章

@YRSM_Simon: 这是个大新闻！ kimi 2.6 是生成级的模型了，在 LLM 能力溢出的年代，速度要成为竞争的胜负手了，芯片领域又要“板块轮动”了吗

X AI KOLs Following

Cerebras is now running Kimi K2.6, a trillion-parameter model, in enterprise trials at ~1,000 tokens/s, the fastest frontier model performance ever measured by Artificial Analysis.

Cerebras 现已运行 Kimi K2.6（一分钟阅读）

TLDR AI

Cerebras 宣布，其硬件现已运行来自 Moonshot AI 的 AI 模型 Kimi K2.6。

@kirillk_web3：你明白 Kimi K2.6 刚刚发布意味着什么吗？开源。免费。1 万亿参数。这才是大家没在谈论的关键……

X AI KOLs Timeline

Kimi K2.6 作为一款免费、开源的 1 万亿参数模型正式推出，能够运行 300 个并行智能体以进行持续执行，据报在 SWE-Bench Pro 任务上的表现优于 Claude Opus 4.6。

稀疏设计（5分钟阅读）

TLDR AI

Moonshot的Kimi K3是一个2.8万亿参数的开源权重模型，拥有896个专家（每个token激活16个），体现了在保持活跃计算不变的情况下扩大总参数的趋势，并使用注意力压缩来减少KV缓存大小，使得前沿推理更容易实现，但存储成本较高。

使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型

Reddit r/LocalLLaMA

一位社区成员详细介绍了这款定制 PC 组装方案，利用已停产的 Intel Optane Persistent Memory，成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。