@tom_doerr: 500小时AI基础设施工程课程 https://github.com/ai-infra-curriculum/ai-infra-engineer-learning…

X AI KOLs Timeline 2026/05/26 16:49 工具

ai-infrastructure curriculum learning-path devops mlops kubernetes docker

摘要

一个全面的500小时学习路径，涵盖AI基础设施工程，包括Docker、Kubernetes、MLOps、LLM基础设施等，通过动手项目和实验进行学习。

500小时AI基础设施工程课程 https://github.com/ai-infra-curriculum/ai-infra-engineer-learning…

查看原文

查看缓存全文

缓存时间: 2026/05/27 03:17

500小时人工智能基础设施工程课程 https://github.com/ai-infra-curriculum/ai-infra-engineer-learning… — # ai-infra-curriculum/ai-infra-engineer-learning 来源：https://github.com/ai-infra-curriculum/ai-infra-engineer-learning # 人工智能基础设施工程师 - 学习路径 License 进度项目时长 通过动手项目和实战学习掌握人工智能基础设施工程 前置要求 • 快速开始 • 课程大纲 • 项目 • 资源 — ## 🎯 概述本仓库包含一条完整的、面向生产环境的学习路径，帮助你成为一名人工智能基础设施工程师。通过全面的模块、真实世界项目以及带有教学TODO注释的生产级代码模板，你将掌握构建、部署和维护大规模机器学习基础设施所需的技能。 仓库状态： ✅ 100% 完成 - 所有模块和项目已准备好供学习！ ### 你将掌握的内容 - ✅ 从零构建机器学习基础设施（Docker、Kubernetes、云平台） - ✅ 部署生产级机器学习系统，具备自动伸缩和全面监控 - ✅ 实现端到端MLOps流水线（Airflow、MLflow、DVC） - ✅ 部署前沿LLM基础设施（vLLM、RAG、向量数据库） - ✅ 通过分布式系统和GPU集群扩展训练 - ✅ 监控和排查生产环境中的复杂机器学习系统 - ✅ 跨云提供商优化成本（可节省60-80%） ### 为何选择这条学习路径？ - 🎓 行业对齐：基于FAANG及顶级科技公司的实际职位要求 - 💻 动手实践：带有TODO注释的代码模板引导你完成真实实现 - 🏗️ 生产就绪：学习Netflix、Uber、Airbnb、OpenAI使用的模式 - 📊 职业导向：直接对应 $120k-$ 180k的人工智能基础设施工程师岗位 - 🚀 循序渐进：10个模块从基础逐步进阶到高级LLM基础设施 - 🔥 现代技术栈：2024-2025年技术（vLLM、RAG、GPU优化） — ## ✨ 最新动态 2026年5月更新： - 🧪 所有62个承诺的实验已编写完成，覆盖全部10个模块（基础→LLM基础设施）。每个实验都是一次完整的、可运行的动手实践，包含目标、前置要求、编号步骤、验证清单、清理和故障排除。 - 📒 新增两份阅读清单： advanced-engineer-path.md 和 staff-engineer-path.md（分别对应9-18个月和2-5年路径）。 - 🧹 结构清理： 解决了mod-101讲座重复问题，整合了测验位置，用真实内容填充了空的Makefile/pyproject，修正了CURRICULUM.md中的自我声明以反映实际完成状态。 - 🔍 CURRICULUM.md诚实审查： 之前的“100%完成”声明已替换为按模块的练习/实验统计。讲座和项目质量优秀；练习完成了119个中的32个，将在后续内容更新中逐步补充。 更早的更新： - 📝 模块102-110的全面测验（265+问题） - 模块102：云计算（模块中测验+期末测验，50题） - 模块103：容器化（25题） - 模块104：Kubernetes（30题） - 模块105：数据管道（25题） - 模块106：MLOps（30题） - 模块107：GPU计算（25题） - 模块108：监控（25题） - 模块109：IaC（25题） - 模块110：LLM基础设施（30题） - 📋 技术版本指南 - 100+工具的完整规范 - 🗺️ 课程交叉参考 - 映射到初级工程师路线 - 📈 职业发展指南 - 从工程师到首席的路线图 — ## 📊 包含内容 ### 10个完整学习模块（130个文件） | 模块 | 主题 | 时长 | 状态 | 测验 | |––––|—––|—––|––––|——| | 01 | 基础 | 50小时 | ✅ 完成（15个文件） | ✅ 30题 | | 02 | 云计算 | 50小时 | ✅ 完成（11个文件） | ✨ +50题 | | 03 | 容器化 | 50小时 | ✅ 完成（14个文件） | ✨ +25题 | | 04 | Kubernetes | 50小时 | ✅ 完成（13个文件） | ✨ +30题 | | 05 | 数据管道 | 50小时 | ✅ 完成（12个文件） | ✨ +25题 | | 06 | MLOps | 50小时 | ✅ 完成（12个文件） | ✨ +30题 | | 07 | GPU计算 | 50小时 | ✅ 完成（12个文件） | ✨ +25题 | | 08 | 监控与可观测性 | 50小时 | ✅ 完成（11个文件） | ✨ +25题 | | 09 | 基础设施即代码 | 50小时 | ✅ 完成（12个文件） | ✨ +25题 | | 10 | LLM基础设施 | 50小时 | ✅ 完成（12个文件） | ✨ +30题 | ### 3个生产级项目（77个文件） | 项目 | 技术 | 时长 | 文件数 | 状态 | |———|———––|–––––|—––|––––| | 01: 基础模型服务 | FastAPI + K8s + 监控 | 30小时 | ~30 | ✅ 完成 | | 02: MLOps流水线 | Airflow + MLflow + DVC | 40小时 | 30 | ✅ 完成 | | 03: LLM部署 | vLLM + RAG + 向量数据库 | 50小时 | 47 | ✅ 完成 | 仓库总计： 207个文件 | ~95,000+行代码 | 500+小时的学习内容 — ## 🎓 前置要求 ### 选项1：完成初级课程（推荐）如果你已完成初级人工智能基础设施工程师（https://github.com/ai-infra-curriculum/ai-infra-junior-engineer-learning）课程，则已具备所有所需前置条件！✅ 初级课程涵盖： - ✅ Python基础与高级概念 - ✅ Linux/Unix命令行掌握 - ✅ Git与版本控制工作流 - ✅ 机器学习基础（PyTorch、TensorFlow） - ✅ Docker与容器化 - ✅ Kubernetes入门 - ✅ API开发与数据库 - ✅ 监控与云平台时长：440小时（兼职22周，全职11周） ### 选项2：自我评估 未完成初级课程？ 使用我们的全面前置要求指南： - 通过详细的技能清单检查你的准备程度 - 识别知识缺口 - 获取个性化学习建议 - 运行自动化技能评估 ### 最低要求如果自学，你必须具备： - Python 3.9+（中级水平：面向对象、异步、测试、类型提示） - Linux/Unix CLI（bash脚本、进程、调试） - Git基础（分支、合并、协作） - 机器学习基础（PyTorch/TensorFlow、训练、推理、评估） - Docker基础（镜像、容器、Compose） - Kubernetes入门（Pod、部署、服务） 👉 不确定是否准备好？ 阅读前置要求指南进行详细评估。 — ## 🚀 快速开始 ### 快速启动 bash # 1. 克隆仓库 git clone https://github.com/ai-infra-curriculum/ai-infra-engineer-learning.git cd ai-infra-engineer-learning # 2. 创建虚拟环境 python3.11 -m venv venv source venv/bin/activate # Windows: venv\Scripts\activate # 3. 安装依赖 pip install -r requirements.txt # 4. 从模块01开始 cd lessons/mod-101-foundations cat README.md ### 学习路径 1. 模块01-02（基础） - 如果对ML基础设施不熟悉，从此处开始 2. 模块03-04（核心基础设施） - Docker和Kubernetes精通 3. 模块05-06（MLOps） - 数据管道和ML运维 4. 模块07-08（高级） - GPU计算和监控 5. 模块09-10（现代技术栈） - IaC和LLM基础设施 详细指南： GETTING_STARTED.md — ## 📖 课程概述 ### 模块01：基础 ✅ 50小时 | 15个文件 构建ML基础设施基础： - ML基础设施全景与职业路径 - Python环境搭建与最佳实践 - ML框架（PyTorch、TensorFlow） - Docker基础与容器化 - 使用FastAPI开发REST API 查看模块01 → — ### 模块02：云计算 ✅ 50小时 | 11个文件 掌握云平台上的ML： - ML工作负载的云架构 - AWS（EC2、S3、EKS、SageMaker） - GCP（Compute Engine、GCS、GKE、Vertex AI） - Azure（虚拟机、Blob存储、AKS、Azure ML） - 多云策略与成本优化（节省60-80%）查看模块02 → — ### 模块03：容器化 ✅ 50小时 | 14个文件 深入容器技术： - Docker架构与最佳实践 - 多阶段构建与优化 - 使用Docker Compose构建多服务应用 - 容器注册表与镜像管理 - 安全与漏洞扫描查看模块03 → — ### 模块04：Kubernetes ✅ 50小时 | 13个文件 掌握Kubernetes用于ML： - Kubernetes架构与组件 - 部署、服务、ConfigMap、Secret - GPU资源管理与调度 - 自动伸缩（HPA、VPA、集群伸缩器） - Helm图表与使用ArgoCD实现GitOps 查看模块04 → — ### 模块05：数据管道 ✅ 50小时 | 12个文件 构建稳健的数据管道： - 使用Apache Airflow实现工作流编排 - 使用Apache Spark进行数据处理 - 使用Apache Kafka实现流处理 - 使用DVC进行数据版本控制 - 数据质量验证与监控查看模块05 → — ### 模块06：MLOps ✅ 50小时 | 12个文件 实施MLOps最佳实践： - 使用MLflow进行实验跟踪 - 模型注册表与版本控制 - 特征存储与工程 - ML模型的CI/CD - A/B测试与实验 - ML治理与最佳实践查看模块06 → — ### 模块07：GPU计算与分布式训练 ✅ 50小时 | 12个文件 利用GPU算力： - CUDA编程基础 - PyTorch GPU加速 - 分布式训练（DDP、FSDP） - 多GPU与多节点训练 - 模型并行与流水线并行 - GPU内存优化查看模块07 → — ### 模块08：监控与可观测性 ✅ 50小时 | 11个文件 构建全面的可观测性： - Prometheus与Grafana - 指标、日志和链路（OpenTelemetry） - 使用Jaeger实现分布式追踪 - 告警与事件响应 - 模型性能监控 - SLI、SLO和SLA 查看模块08 → — ### 模块09：基础设施即代码 ✅ 50小时 | 12个文件 自动化基础设施： - Terraform基础与最佳实践 - 使用Pulumi实现多语言IaC - 使用CloudFormation管理AWS - 状态管理与模块 - 多环境部署 - GitOps工作流查看模块09 → — ### 模块10：LLM基础设施 ✅ 50小时 | 12个文件 掌握前沿LLM基础设施（2024-2025）： - 使用vLLM和TensorRT-LLM进行LLM服务 - RAG（检索增强生成） - 向量数据库（Pinecone、Weaviate、Milvus） - 模型量化（FP16、INT8） - 推理场景下的GPU优化 - 成本追踪与优化查看模块10 → — ## 🛠️ 项目 ### 项目01：基础模型服务系统 ✅ ⭐ 初级 | 30小时 | ~30个文件 构建完整的模型服务系统： - 用于图像分类的FastAPI REST API - Docker容器化与优化 - 带监控的Kubernetes部署 - Prometheus和Grafana仪表盘 - 使用GitHub Actions的CI/CD流水线 技术栈： FastAPI、Docker、Kubernetes、PyTorch、Prometheus、Grafana 查看项目01 → — ### 项目02：端到端MLOps流水线 ✅ ⭐⭐ 中级 | 40小时 | 30个文件 创建生产级MLOps流水线： - Apache Airflow DAG（数据、训练、部署） - MLflow实验跟踪与模型注册表 - 使用DVC进行数据版本控制 - 自动化模型部署到Kubernetes - 全面的监控与告警 - 带自动测试的CI/CD 技术栈： Airflow、MLflow、DVC、PostgreSQL、Redis、MinIO、Kubernetes 查看项目02 → — ### 项目03：LLM部署平台 ✅ ⭐⭐⭐ 高级 | 50小时 | 47个文件 部署前沿LLM基础设施： - 使用vLLM/TensorRT-LLM实现优化服务 - 带向量数据库的RAG系统（Pinecone/ChromaDB/Milvus） - 文档摄取管道（PDF、TXT、网页） - 带服务器发送事件流的FastAPI - 支持GPU的Kubernetes - 成本追踪与优化 - 全面监控 技术栈： vLLM、LangChain、向量数据库、FastAPI、Kubernetes + GPU、Transformers 查看项目03 → — ## 💰 成本考量 ### 云成本所有学习材料可在免费层级限制内完成： - AWS：每月750小时t2.micro + $300积分（视情况而定） - **GCP**：$ 300积分（90天） - Azure： $200积分（30天） **GPU成本**（可选，用于高级项目）： - 按需实例：$ 1-3/小时 - 竞价实例： $0.30-1/小时（节省70%） - 估算总计：完成全部课程需$ 50-150 ### 优化建议 - 使用竞价实例进行训练（节省60-90%） - 跨多个云提供商利用免费层级 - 不使用资源时及时删除 - 尽可能使用本地开发 — ## 📚 资源 ### 包含的文档 - 带示例的全面课程材料 - 带有TODO注释的代码模板，引导实现 - 带架构图的完整项目规范 - 每个模块的测验和评估 - 最佳实践与设计模式 ### 外部资源 - 📖 阅读清单：resources/reading-lists/ — 高级+首席工程师路径 - 🛠️ 速查表：resources/cheat-sheets/ — docker、kubernetes、git、linux、python基础设施 - ❓ 常见问题：resources/faq.md ### 课程文档 - 📋 技术版本指南 - 所有工具和框架的推荐版本 - 🗺️ 课程交叉参考（https://github.com/ai-infra-curriculum/.github/blob/main/CURRICULUM_CROSS_REFERENCE.md） - 初级与工程师路线的映射 - 📈 职业发展指南（https://github.com/ai-infra-curriculum/.github/blob/main/CAREER_PROGRESSION.md） - 从初级到首席的完整职业阶梯 — ## 🎯 学习成果与职业影响 ### 完成后，你将能够胜任以下职位： 人工智能基础设施工程师 - 💰 薪资：$120,000 - $180,000 - 🏢 公司：科技公司、AI初创企业、ML型组织 - 📈 需求：非常高（年增长35%） **ML平台工程师** - 💰 薪资：$ 130,000 - $190,000 - 🏢 公司：大型科技公司、拥有ML团队的企业 - 📈 需求：高（专业化角色） **MLOps工程师** - 💰 薪资：$ 110,000 - $170,000 - 🏢 公司：所有大规模开展ML的组织 - 📈 需求：非常高（增长最快的ML角色） ### 你将展示的技能 ✅ 具备GPU调度的Kubernetes专业知识 ✅ 端到端MLOps流水线实现 ✅ LLM基础设施与RAG系统 ✅ 分布式训练与GPU优化 ✅ 生产级监控与可观测性 ✅ 云平台掌握（AWS、GCP、Azure） ✅ 使用Terraform实现基础设施即代码 ✅ 成本优化策略 — ## 📊 仓库统计 - 总文件数： 207 - 估计代码行数： ~95,000+ - 模块： 10（全部完成） - 项目： 3（全部完成） - 学习时长： 500+小时 - 技术： 50+ ### 涵盖的技术栈 核心基础设施： Docker、Kubernetes、Terraform、Helm、ArgoCD ML与数据： PyTorch、TensorFlow、Apache Airflow、Apache Spark、Kafka、DVC MLOps： MLflow、特征存储、模型注册表、CI/CD LLM基础设施： vLLM、TensorRT-LLM、LangChain、向量数据库（Pinecone、Milvus、ChromaDB） 云平台： AWS（EC2、S3、EKS、SageMaker）、GCP（GCE、GCS、GKE、Vertex AI）、Azure（虚拟机、AKS、Azure ML） 监控： Prometheus、Grafana、OpenTelemetry、Jaeger、ELK栈 GPU计算： CUDA、NCCL、多GPU训练、分布式训练 — ## 🤝 贡献我们欢迎各

@tom_doerr: 500小时AI基础设施工程课程 https://github.com/ai-infra-curriculum/ai-infra-engineer-learning…

相似文章

@tom_doerr：17个阶段的AI工程课程，包含51个项目 https://github.com/PrinceSinghhub/Ultimate-AI-Engineer-Roadmap-2026…

@tom_doerr：AI、机器学习和大语言模型学习的结构化路线图 https://github.com/bishwaghimire/ai-learning-roadmaps…

@tom_doerr: 视频引导的ML系统和LLM基础设施课程 https://github.com/HuaizhengZhang/AI-Infra-from-Zero-to-He…

rohitg00/ai-engineering-from-scratch

@tom_doerr: 构建自主AI智能体的免费课程和代码 https://github.com/avinash201999/free-ai-agents-resources…

提交意见反馈