@TheAhmadOsman：LLM 推理引擎栈拆解与负载/瓶颈速查表，来自即将发布的《推理引擎全解》…

X AI KOLs Timeline 2026/04/20 05:59 工具

llm-inference cheatsheet performance optimization stack-breakdown

摘要

Ahmad Osman 分享了一张速查表，提前拆解 LLM 推理引擎栈及常见负载瓶颈，为即将发布的深度文章预热。

LLM 推理引擎栈拆解与负载/瓶颈速查表，节选自我在撰写的《推理引擎全解》文章

查看缓存全文

缓存时间: 2026/04/21 10:32

LLM 推理引擎栈拆解与负载/瓶颈速查表
节选自即将发布的《推理引擎全景长文》

1. 核心栈全景图

层级	关键组件	主要任务	常见实现
应用层	Prompt 模板、对话管理、工具调用	把业务需求转成模型输入	LangChain、LlamaIndex、Guardrails
服务层	批调度、路由、缓存、限流	高并发、低延迟、弹性	vLLM、Triton、Ray Serve、FastAPI
推理运行时	图执行、kernel 调度、内存池	单卡极致吞吐	TensorRT-LLM、DeepSpeed-FastGen、HF TGI
编译/图优化	算子融合、量化、剪枝、张量并行	减少 kernel 数量、降低精度	torch.compile、TVM、XLA、TensorRT
内核层	GEMM、FlashAttention、PagedAttention	占 90 % 延迟的算子	cuBLAS、CUTLASS、Triton、FlashAttention
驱动层	CUDA、cuDNN、NCCL	硬件抽象、通信	CUDA 12.x、NCCL 2.18+
硬件层	GPU SM、Tensor Core、HBM、NVLink	提供算力与带宽	A100、H100、MI300、L4

症状	根因	定位手段	快速修复
首 token 延迟高	Prefill GEMM 排队	nsight 看 GPU Util < 60 %	增大 max_num_seqs，开 Tensor Parallel
每 token 延迟高	KV Cache 带宽饱和	nvprof 看 dram__bytes 峰值	用 FlashAttention-2、开 int8 KV Cache
吞吐低	批大小不足	看 GPU Util 忽高忽低	Continuous Batching + 增大 max_batch_size
OOM	KV Cache 碎片化	看 reserved vs allocated	开 PagedAttention，调小 max_seq_len
多卡 scaling 差	NCCL 延迟高	nsys 看 ncclAllReduce 占比	用 NVLink + 拓扑感知 placement

先算 roofline：算力 ÷ 带宽，定位 compute-bound 还是 memory-bound。
Prefill 阶段：Tensor Parallel > Pipeline Parallel，GEMM 越大越好。
Decode 阶段：Batch 越大越好，KV Cache 压缩比 > 并行度。
显存换吞吐：int8 KV Cache + 4-bit weight 量化可把批大小提 2–3×。
服务层黄金指标：
- Time to First Token (TTFT) < 200 ms
- Inter-token Latency (ITL) < 50 ms
- Output Token Throughput > 50 token/s/user

Prefill 吃算力，Decode 吃带宽，KV Cache 是显存怪兽，Continuous Batching + PagedAttention 是现阶段的万能止痛片。

TLDR AI

Lightseek发布TokenSpeed，一款面向智能体工作负载优化的高性能LLM推理引擎，采用编译器驱动的并行技术和先进的内核优化，相关技术已被vLLM采纳。

X AI KOLs Timeline

vLLM、SGLang、llama.cpp 与 ExLlamaV3 等主流开源推理引擎概览，助你轻松托管并运行大模型。

X AI KOLs Timeline

本指南解释了大语言模型的端到端推理管线，作为理解文本生成的模拟面试资源。

X AI KOLs Timeline

一门高效AI课程的第12讲笔记，涵盖 Transformer 与 LLM 基础知识，包括多头注意力机制、位置编码、KV 缓存，以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。

Hugging Face Daily Papers

研究者推出BEHEMOTH基准与CluE聚类提示优化，使LLM能从多样化任务中抽取并保留异构记忆，相比既往自演化框架提升9%。