@draecomino: Cerebras 创下新纪录:万亿参数模型,每秒 1000 个 token
摘要
Cerebras 宣布,在企业试用中,其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token,并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。
查看缓存全文
缓存时间: 2026/05/19 20:49
Cerebras 创造新纪录:万亿参数模型实现每秒 1000 个 token
Cerebras (@cerebras): Cerebras 目前正在企业试用中运行 Kimi K2.6——一个万亿参数模型。
以约每秒 1000 个 token 的速度,这是 Artificial Analysis @ArtificialAnlys 测量过的性能最快的前沿模型。
相似文章
@YRSM_Simon: 这是个大新闻! kimi 2.6 是生成级的模型了,在 LLM 能力溢出的年代,速度要成为竞争的胜负手了,芯片领域又要“板块轮动”了吗
Cerebras is now running Kimi K2.6, a trillion-parameter model, in enterprise trials at ~1,000 tokens/s, the fastest frontier model performance ever measured by Artificial Analysis.
Cerebras 现已运行 Kimi K2.6(一分钟阅读)
Cerebras 宣布,其硬件现已运行来自 Moonshot AI 的 AI 模型 Kimi K2.6。
@kirillk_web3:你明白 Kimi K2.6 刚刚发布意味着什么吗?开源。免费。1 万亿参数。这才是大家没在谈论的关键……
Kimi K2.6 作为一款免费、开源的 1 万亿参数模型正式推出,能够运行 300 个并行智能体以进行持续执行,据报在 SWE-Bench Pro 任务上的表现优于 Claude Opus 4.6。
使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型
一位社区成员详细介绍了这款定制 PC 组装方案,利用已停产的 Intel Optane Persistent Memory,成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。
Nemotron 3 Ultra。5500亿参数,550亿活跃参数,100万token上下文窗口
NVIDIA发布Nemotron 3 Ultra,一个庞大的5500亿参数混合专家模型,具有550亿活跃参数和100万token的上下文窗口。