@seclink: 有点意思 ....

X AI KOLs Timeline 工具

摘要

TileRT 是一款基于 tile 的运行时,能够实现超低延迟的 LLM 推理,近期里程碑包括在万亿参数模型上达到每秒 1000+ tokens。它支持 DeepSeek-V3.2 和 GLM-5 等模型,并在 GitHub 上开源提供。

有点有意思 .... https://t.co/v4ii5fexbR
查看原文
查看缓存全文

缓存时间: 2026/06/26 18:13

TileRT:基于Tile的超低延迟LLM推理运行时

概述 · 生成 · MTP生成 · 安装 · 新闻

在8× NVIDIA B200上使用TileRT v0.1.4运行GLM-5.1-FP8的token生成速度。输出长度1K,输入长度1K–192K。柱状图对比了:无MTP的TileRT、平均接受长度3.2的MTP、以及最佳MTP接受情况下的峰值速度。

相似文章

@seclink: https://x.com/seclink/status/2069238720155484221

X AI KOLs Following

本文盘点了具身智能领域的最新世界模型算法,包括Fast-WAM及其低延迟解耦机制,并介绍了多个开源项目如GeoSem-WAM、CLAW、WALL-X等,提供了技术特点和代码链接。

@ying11231:在TPU上令人印象深刻的性能。

X AI KOLs Timeline

LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。