@AndrewYNg:全新课程:高效部署 LLM——如何以低延迟、合理成本为大量并发用户提供模型服务…

X AI KOLs Following 产品

摘要

Andrew Ng 与 DeepLearning.AI 联合 Red Hat 推出了一门关于使用 vLLM 进行高效 LLM 推理的短期课程,内容涵盖量化、PagedAttention、连续批处理以及大规模 LLM 服务的性能基准测试。

全新课程:高效部署 LLM——如何以低延迟、合理成本为大量并发用户提供模型服务?本短期课程与 @RedHat 合作打造,由 @cedricclyburn 主讲。 高效的 LLM 服务离不开高效的内存管理。一个 700 亿参数的模型仅加载权重就需要约 140 GB 内存。此外,每个活跃请求还需要独占一块 GPU 内存——即 KV 缓存——用于存储已积累的 token 上下文。在本课程中,你将学习如何通过量化技术减少模型的内存占用,并使用 vLLM 部署模型——vLLM 通过智能内存管理,能够高效处理大量并发请求。 你将掌握的技能: - 对模型进行量化,并评估精度损失 - 使用 vLLM 部署模型,观察其如何高效处理并发请求 - 对部署进行基准测试,在速度、成本与精度之间做出合理权衡 立即加入,学习高效部署 LLM: https://deeplearning.ai/courses/fast-and-efficient-llm-inference-with-vllm…
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:19

高效 LLM 推理:vLLM 实战课程

来源:https://www.deeplearning.ai/courses/fast-and-efficient-llm-inference-with-vllm

你将学到什么

  • 应用量化技术压缩模型的内存占用,并衡量由此带来的精度损失。
  • 使用 vLLM 部署模型,了解它如何通过连续批处理和 PagedAttention 等技术高效处理大量并发请求。
  • 对你的部署进行基准测试,评估模型质量,从而在速度、成本和精度之间做出合理权衡。

课程简介

《高效 LLM 推理:vLLM 实战》是一门短期课程,由 Red Hat 合作打造,讲师为 Red Hat 高级开发者布道师 Cedric Clyburn。

要以低延迟、合理成本为大量用户高效提供开源 LLM 服务,核心在于内存管理。模型权重和 KV 缓存会竞争有限的内存资源:一个 700 亿参数的模型仅加载权重就需要约 140 GB 内存,而 KV 缓存会随着每个请求的处理不断增长。在本课程中,你将学习如何通过量化来压缩权重,并使用广泛采用的开源推理框架 vLLM 部署模型,充分利用其提供的内存管理技术,如 PagedAttention 和前缀缓存。

你将在一个真实模型上完整运行“优化—部署—基准测试“工作流:使用 LLM Compressor 对开源 Qwen 模型进行压缩,使用 vLLM 提供服务,并借助 GuideLLM 和 lm-eval 在真实流量场景下对部署进行基准测试。

具体内容包括:

  • 理解高效 LLM 部署的重要性、推理过程中发生了什么、KV 缓存是什么,以及 GPU 内存层次结构如何影响性能。
  • 探索 LLM 优化基础知识,以及权重量化和激活量化等压缩技术如何在保持精度的同时提升模型的吞吐量和降低延迟。
  • 使用 LLM Compressor 对全精度模型进行量化,比较量化前后的模型大小,并通过困惑度(perplexity)评估压缩后的模型性能是否依然良好。
  • 学习现代 LLM 服务背后的三项核心技术:连续批处理(让 GPU 保持高效运转)、PagedAttention(无浪费地管理 KV 缓存)以及前缀缓存(当请求共享内容时跳过重复计算)。
  • 连接到 vLLM 推理服务器,通过兼容 OpenAI 的 API 发送请求,并在指标中实时观察 vLLM 内存管理技术的运作效果。
  • 使用 GuideLLM 对部署进行负载基准测试,并使用 lm-eval 评估模型质量。

课程结束时,你将完整运行过一个真实模型的“优化—部署—基准测试“工作流,并建立起在精度、速度和成本之间权衡取舍的直觉。

适合人群

需要高效部署开源 LLM 的机器学习工程师、平台工程师和开发者。建议具备 Python 基础以及基本的 LLM 概念(如 token、推理、GPU 使用)。

课程大纲

9 节课・3 个代码示例

讲师

Cedric Clyburn

Red Hat 高级开发者布道师

  • https://www.linkedin.com/in/cedricclyburn/

相似文章

@AYi_AInotes: 做LLM生产落地的开发老哥们,可以看Andrew Ng刚出的这门课,免费版可以看所有视频和基础代码。 这个课程不是又一遍Attention is All You Need的数学推导, 也不是又一套调prompt的玄学技巧, 更不是又一个从…

X AI KOLs Timeline

Andrew Ng 推出了一门新的 LLM 生产落地课程,免费版可观看所有视频和基础代码。课程深入讲解 LLM 内部机制、推理优化(如量化、KV Cache、Flash Attention、投机解码)以及硬件感知优化,由 AMD 工程副总裁主讲,旨在帮助开发者将 Transformer 从学术概念转化为可调试、可优化的工程工具。