@AndrewYNg:全新课程:高效部署 LLM——如何以低延迟、合理成本为大量并发用户提供模型服务…
摘要
Andrew Ng 与 DeepLearning.AI 联合 Red Hat 推出了一门关于使用 vLLM 进行高效 LLM 推理的短期课程,内容涵盖量化、PagedAttention、连续批处理以及大规模 LLM 服务的性能基准测试。
查看缓存全文
缓存时间: 2026/06/05 02:19
高效 LLM 推理:vLLM 实战课程
来源:https://www.deeplearning.ai/courses/fast-and-efficient-llm-inference-with-vllm
你将学到什么
- 应用量化技术压缩模型的内存占用,并衡量由此带来的精度损失。
- 使用 vLLM 部署模型,了解它如何通过连续批处理和 PagedAttention 等技术高效处理大量并发请求。
- 对你的部署进行基准测试,评估模型质量,从而在速度、成本和精度之间做出合理权衡。
课程简介
《高效 LLM 推理:vLLM 实战》是一门短期课程,由 Red Hat 合作打造,讲师为 Red Hat 高级开发者布道师 Cedric Clyburn。
要以低延迟、合理成本为大量用户高效提供开源 LLM 服务,核心在于内存管理。模型权重和 KV 缓存会竞争有限的内存资源:一个 700 亿参数的模型仅加载权重就需要约 140 GB 内存,而 KV 缓存会随着每个请求的处理不断增长。在本课程中,你将学习如何通过量化来压缩权重,并使用广泛采用的开源推理框架 vLLM 部署模型,充分利用其提供的内存管理技术,如 PagedAttention 和前缀缓存。
你将在一个真实模型上完整运行“优化—部署—基准测试“工作流:使用 LLM Compressor 对开源 Qwen 模型进行压缩,使用 vLLM 提供服务,并借助 GuideLLM 和 lm-eval 在真实流量场景下对部署进行基准测试。
具体内容包括:
- 理解高效 LLM 部署的重要性、推理过程中发生了什么、KV 缓存是什么,以及 GPU 内存层次结构如何影响性能。
- 探索 LLM 优化基础知识,以及权重量化和激活量化等压缩技术如何在保持精度的同时提升模型的吞吐量和降低延迟。
- 使用 LLM Compressor 对全精度模型进行量化,比较量化前后的模型大小,并通过困惑度(perplexity)评估压缩后的模型性能是否依然良好。
- 学习现代 LLM 服务背后的三项核心技术:连续批处理(让 GPU 保持高效运转)、PagedAttention(无浪费地管理 KV 缓存)以及前缀缓存(当请求共享内容时跳过重复计算)。
- 连接到 vLLM 推理服务器,通过兼容 OpenAI 的 API 发送请求,并在指标中实时观察 vLLM 内存管理技术的运作效果。
- 使用 GuideLLM 对部署进行负载基准测试,并使用 lm-eval 评估模型质量。
课程结束时,你将完整运行过一个真实模型的“优化—部署—基准测试“工作流,并建立起在精度、速度和成本之间权衡取舍的直觉。
适合人群
需要高效部署开源 LLM 的机器学习工程师、平台工程师和开发者。建议具备 Python 基础以及基本的 LLM 概念(如 token、推理、GPU 使用)。
课程大纲
9 节课・3 个代码示例
讲师
Cedric Clyburn
Red Hat 高级开发者布道师
- https://www.linkedin.com/in/cedricclyburn/
相似文章
@AndrewYNg: 新课程:Transformers in Practice。你将获得对基于Transformer的LLM工作方式的实践理解,从而能够推理…
deeplearning.ai与AMD合作推出的新课程《Transformers in Practice》,教授对基于Transformer的LLM的实践理解,涵盖文本生成、注意力机制以及量化(quantization)和KV缓存等推理优化技术。
@ickma2311: 高效AI讲座13:LLM部署技术 该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…
一场关于LLM部署技术的讲座,涵盖AWQ、vLLM、FlashAttention、量化和激活平滑,以实现高效服务。
大语言模型“坦诚相告”、自动化科学研究、Copilot 用户真正想要什么、降低推理成本
DeepLearning.AI 推出《Build with Andrew》课程,帮助零编程基础的用户在 30 分钟内利用 AI 构建 Web 应用;同时,最新研究聚焦大语言模型的透明度问题,涵盖模型诚实性与自动化科学研究能力等方向。
@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…
一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。
@AYi_AInotes: 做LLM生产落地的开发老哥们,可以看Andrew Ng刚出的这门课,免费版可以看所有视频和基础代码。 这个课程不是又一遍Attention is All You Need的数学推导, 也不是又一套调prompt的玄学技巧, 更不是又一个从…
Andrew Ng 推出了一门新的 LLM 生产落地课程,免费版可观看所有视频和基础代码。课程深入讲解 LLM 内部机制、推理优化(如量化、KV Cache、Flash Attention、投机解码)以及硬件感知优化,由 AMD 工程副总裁主讲,旨在帮助开发者将 Transformer 从学术概念转化为可调试、可优化的工程工具。