@tenstorrent: 感谢东京!以下是我们在TT-Deploy Japan上宣布的所有内容:更快的AI推理 • Kimi K2.6 900 t/s/u,速度提升3倍…
摘要
Tenstorrent在TT-Deploy Japan上宣布,其硬件上对Kimi K2.6、LTX 2.3和DeepSeek-R1实现了更快的AI推理,此外还推出了可授权的TT-Ascalon S RISC-V CPU,用于生成式AI代理应用。
查看缓存全文
缓存时间: 2026/07/03 06:31
谢谢东京!以下是我们在 TT-Deploy Japan 上宣布的所有内容:
更快的AI推理
• Kimi K2.6 900 t/s/u,比GPU快3倍
• LTX 2.3 Fast 约6秒生成6秒视频,144帧,1080p,比GPU快4倍
• DeepSeek-R1-0528 671B 400+ t/s/u
TT-Ascalon S 今日可用
• 一款可授权的RISC-V CPU,专为下一代智能体AI应用打造
异构或独立部署
• 轻松将 Tenstorrent Galaxy 与现有基础设施一起部署,或独立部署
• @aiand_ 的自主异构推理平台,基于 Tenstorrent Galaxy™ 超级集群
相似文章
@HotAisle:Kimi K2.6 + DFlash:8×MI300X 上 508 tok/s,自回归基线 90 tok/s 提升至 5.6 倍
Kimi K2.6 搭配 DFlash 推理系统在 8×AMD MI300X 上实现 508 tokens/s,相比 90 tokens/s 基线零质量损失地提升 5.6 倍吞吐。
@gnotuy:我们开源了 Kimi K2.6,测试时计算的下一个前沿不是更大的模型,而是更优的智能组织……
Moonshot AI 开源 Kimi K2.6,并指出测试时计算的下一个前沿在于更优的智能组织,而非单纯堆砌更大的模型。
@YRSM_Simon: 这是个大新闻! kimi 2.6 是生成级的模型了,在 LLM 能力溢出的年代,速度要成为竞争的胜负手了,芯片领域又要“板块轮动”了吗
Cerebras is now running Kimi K2.6, a trillion-parameter model, in enterprise trials at ~1,000 tokens/s, the fastest frontier model performance ever measured by Artificial Analysis.
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。
@songhan_mit: 我们开发了一种基于智能体的原生方法来加速生成式AI,延续了KDA(内核设计智能体)在更高层次上的成功…
Enze Xie 宣布推出 Sol Video Inference Engine,这是一个基于智能体的原生、无需训练的全栈加速器,用于视频扩散,能够自动调整缓存、稀疏注意力、令牌剪枝、量化和内核融合,在像 64B Cosmos3-Super 和 22B LTX-2.3 这样的大模型上实现了 >2 倍的端到端加速。