@venkat_systems: 推理不仅仅是GPU/加速器的问题。热路径中未经优化的CPU工作会极大影响性能。v0.…

X AI KOLs Timeline 工具

摘要

Venkat 解释道,热路径中未经优化的CPU工作会严重影响推理性能,并介绍了他在 mooncake 中提交的PR,该PR添加了一个内存池,用于实现无锁、无分配的操作,使 vLLM 和 SGL 项目受益。

推理不仅仅是GPU/加速器的问题。热路径中未经优化的CPU工作会极大影响性能。@Kimi_Moonshot 的 mooncake v0.3.11 包含了我的第一个PR。 无锁方案在性能关键的地方反复出现。LMAX 率先实现了这一点:预分配的环形缓冲区、无锁CAS序列化、热路径中无分配操作。@TigerBeetleDB 也遵循这一原则。启动后不再有 malloc 或 free。 我的 PR 1820 引入了一个内存池。Mooncake 在启动时预分配一大块内存,并在每次缓存操作中重复使用。此后热路径中不再有内核调用。在 @vllm_project 和 @sgl_project 中启用它,即可享受免费的有效吞吐量提升! 每一代GPU都使得同样的CPU工作占总请求时间的比例更大。阿姆达尔定律最终会找到热路径中你未优化的每个固定成本。值得提前优化。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:38

推理不仅仅是GPU/加速器的问题。热路径中未优化的CPU工作会显著影响性能。@Kimi_Moonshot 的 mooncake v0.3.11 包含了我对该仓库的第一个 PR。

在性能至关重要的地方,无锁编程模式不断被重复采用。LMAX 率先实现了这一点:预分配的环形缓冲区、无锁CAS序列、热路径中无内存分配。@TigerBeetleDB 也严格遵循这一原则,启动后不再有 malloc 或 free。

我的 PR 1820 引入了一个内存区域(memory arena)。mooncake 在启动时预分配一大块内存,并在每次缓存操作中复用该内存,热路径中不再有内核调用。在 @vllm_project 和 @sgl_project 中启用它,即可免费获得有效吞吐量提升!

每一代 GPU 都会让相同的 CPU 工作占据请求总时间的更大比例。阿姆达尔定律最终会揭示热路径中所有你未曾优化的固定成本。值得提前应对。

相似文章