@TheAhmadOsman:LLM 推理引擎栈拆解与负载/瓶颈速查表,来自即将发布的《推理引擎全解》…
摘要
Ahmad Osman 分享了一张速查表,提前拆解 LLM 推理引擎栈及常见负载瓶颈,为即将发布的深度文章预热。
LLM 推理引擎栈拆解与负载/瓶颈速查表,节选自我在撰写的《推理引擎全解》文章
查看缓存全文
缓存时间: 2026/04/21 10:32
LLM 推理引擎栈拆解与负载/瓶颈速查表
节选自即将发布的《推理引擎全景长文》
1. 核心栈全景图
| 层级 | 关键组件 | 主要任务 | 常见实现 |
|---|---|---|---|
| 应用层 | Prompt 模板、对话管理、工具调用 | 把业务需求转成模型输入 | LangChain、LlamaIndex、Guardrails |
| 服务层 | 批调度、路由、缓存、限流 | 高并发、低延迟、弹性 | vLLM、Triton、Ray Serve、FastAPI |
| 推理运行时 | 图执行、kernel 调度、内存池 | 单卡极致吞吐 | TensorRT-LLM、DeepSpeed-FastGen、HF TGI |
| 编译/图优化 | 算子融合、量化、剪枝、张量并行 | 减少 kernel 数量、降低精度 | torch.compile、TVM、XLA、TensorRT |
| 内核层 | GEMM、FlashAttention、PagedAttention | 占 90 % 延迟的算子 | cuBLAS、CUTLASS、Triton、FlashAttention |
| 驱动层 | CUDA、cuDNN、NCCL | 硬件抽象、通信 | CUDA 12.x、NCCL 2.18+ |
| 硬件层 | GPU SM、Tensor Core、HBM、NVLink | 提供算力与带宽 | A100、H100、MI300、L4 |
2. 典型推理流程(自回归)
- 预填充(Prefill)
并行计算整个 prompt 的 KV Cache,compute-bound,GEMM 主导。 - 解码(Decode)
逐 token 生成,memory-bound,带宽瓶颈在 KV Cache 读写。 - KV Cache 管理
动态增长 ⇒ 碎片化 ⇒ PagedAttention 把块当页用,降低 70 % 浪费。 - 投机解码(Speculative Decode)
小模型打草稿,大模型并行验证,可把延迟 ↓ 2×。
3. 瓶颈速查表
| 症状 | 根因 | 定位手段 | 快速修复 |
|---|---|---|---|
| 首 token 延迟高 | Prefill GEMM 排队 | nsight 看 GPU Util < 60 % | 增大 max_num_seqs,开 Tensor Parallel |
| 每 token 延迟高 | KV Cache 带宽饱和 | nvprof 看 dram__bytes 峰值 | 用 FlashAttention-2、开 int8 KV Cache |
| 吞吐低 | 批大小不足 | 看 GPU Util 忽高忽低 | Continuous Batching + 增大 max_batch_size |
| OOM | KV Cache 碎片化 | 看 reserved vs allocated | 开 PagedAttention,调小 max_seq_len |
| 多卡 scaling 差 | NCCL 延迟高 | nsys 看 ncclAllReduce 占比 | 用 NVLink + 拓扑感知 placement |
4. 调优口诀
- 先算 roofline:算力 ÷ 带宽,定位 compute-bound 还是 memory-bound。
- Prefill 阶段:Tensor Parallel > Pipeline Parallel,GEMM 越大越好。
- Decode 阶段:Batch 越大越好,KV Cache 压缩比 > 并行度。
- 显存换吞吐:int8 KV Cache + 4-bit weight 量化可把批大小提 2–3×。
- 服务层黄金指标:
- Time to First Token (TTFT) < 200 ms
- Inter-token Latency (ITL) < 50 ms
- Output Token Throughput > 50 token/s/user
5. 一句话总结
Prefill 吃算力,Decode 吃带宽,KV Cache 是显存怪兽,Continuous Batching + PagedAttention 是现阶段的万能止痛片。
相似文章
TokenSpeed:面向智能体工作负载的"光速"LLM推理引擎(5分钟阅读)
Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。
@0xSero:关于 LLM 推理与部署,看这一篇就够了。你听说过:- vLLM - SGLang - llama.cpp - …
vLLM、SGLang、llama.cpp 与 ExLlamaV3 等主流开源推理引擎概览,助你轻松托管并运行大模型。
@_vmlops: 大语言模型文本生成的端到端推理管线——模拟面试指南 https://drive.google.com/file/d/1eDqEtWWtIe…
本指南解释了大语言模型的端到端推理管线,作为理解文本生成的模拟面试资源。
@ickma2311: 高效AI 第12讲:Transformer 与 LLM 本讲不仅介绍 LLM 的工作原理,还深入讲解其底层构建模块……
一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。
跨异构任务的自演化LLM记忆抽取
研究者推出BEHEMOTH基准与CluE聚类提示优化,使LLM能从多样化任务中抽取并保留异构记忆,相比既往自演化框架提升9%。