@seclink: 有点意思 ....
摘要
TileRT 是一款基于 tile 的运行时,能够实现超低延迟的 LLM 推理,近期里程碑包括在万亿参数模型上达到每秒 1000+ tokens。它支持 DeepSeek-V3.2 和 GLM-5 等模型,并在 GitHub 上开源提供。
查看缓存全文
缓存时间: 2026/06/26 18:13
TileRT:基于Tile的超低延迟LLM推理运行时
概述 · 生成 · MTP生成 · 安装 · 新闻
在8× NVIDIA B200上使用TileRT v0.1.4运行GLM-5.1-FP8的token生成速度。输出长度1K,输入长度1K–192K。柱状图对比了:无MTP的TileRT、平均接受长度3.2的MTP、以及最佳MTP接受情况下的峰值速度。
相似文章
小米与TileRT在标准商用GPU上实现万亿参数模型推理速度超1000 TPS。定制芯片的时代结束了?
小米与TileRT使用标准商用GPU,在万亿参数模型上实现了每秒超过1000个token的推理速度,这显示了定制芯片之外的一个重要替代方案。
@seclink: https://x.com/seclink/status/2069238720155484221
本文盘点了具身智能领域的最新世界模型算法,包括Fast-WAM及其低延迟解耦机制,并介绍了多个开源项目如GeoSem-WAM、CLAW、WALL-X等,提供了技术特点和代码链接。
@seclink: 好像 ollama 就这么赤裸裸被 vllm 打败了 。 由于大模型发展太快了(基本每周都出新模型), 很多时候用 vllm 比 用 deepspeed 、tensorRT这些实在和方便.
The article argues that vLLM has overtaken Ollama in usability due to the rapid pace of new model releases, finding it more practical than alternatives like DeepSpeed or TensorRT.
@ying11231:在TPU上令人印象深刻的性能。
LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。
GPU上的无畏并发:在Rust中进行安全的GPU推理,与vLLM/SGLang竞争 [R]
cuTile Rust 引入了一种基于块(tile)的编程模型,利用 Rust 的所有权机制来保证 GPU 内核的内存安全和无数据竞争,基于该模型构建的 Grout 推理引擎在 Qwen3 模型上实现了与 vLLM/SGLang 相当的吞吐量。