@tom_doerr: 500小时AI基础设施工程课程 https://github.com/ai-infra-curriculum/ai-infra-engineer-learning…

X AI KOLs Timeline 工具

摘要

一个全面的500小时学习路径,涵盖AI基础设施工程,包括Docker、Kubernetes、MLOps、LLM基础设施等,通过动手项目和实验进行学习。

500小时AI基础设施工程课程 https://github.com/ai-infra-curriculum/ai-infra-engineer-learning…
查看原文
查看缓存全文

缓存时间: 2026/05/27 03:17

500小时人工智能基础设施工程课程 https://github.com/ai-infra-curriculum/ai-infra-engineer-learning… — # ai-infra-curriculum/ai-infra-engineer-learning 来源:https://github.com/ai-infra-curriculum/ai-infra-engineer-learning # 人工智能基础设施工程师 - 学习路径 License 进度 项目 时长 通过动手项目和实战学习掌握人工智能基础设施工程 前置要求快速开始课程大纲项目资源 — ## 🎯 概述 本仓库包含一条完整的、面向生产环境的学习路径,帮助你成为一名人工智能基础设施工程师。通过全面的模块、真实世界项目以及带有教学TODO注释的生产级代码模板,你将掌握构建、部署和维护大规模机器学习基础设施所需的技能。 仓库状态:100% 完成 - 所有模块和项目已准备好供学习! ### 你将掌握的内容 - ✅ 从零构建机器学习基础设施(Docker、Kubernetes、云平台) - ✅ 部署生产级机器学习系统,具备自动伸缩和全面监控 - ✅ 实现端到端MLOps流水线(Airflow、MLflow、DVC) - ✅ 部署前沿LLM基础设施(vLLM、RAG、向量数据库) - ✅ 通过分布式系统和GPU集群扩展训练 - ✅ 监控和排查生产环境中的复杂机器学习系统 - ✅ 跨云提供商优化成本(可节省60-80%) ### 为何选择这条学习路径? - 🎓 行业对齐:基于FAANG及顶级科技公司的实际职位要求 - 💻 动手实践:带有TODO注释的代码模板引导你完成真实实现 - 🏗️ 生产就绪:学习Netflix、Uber、Airbnb、OpenAI使用的模式 - 📊 职业导向:直接对应120k-180k的人工智能基础设施工程师岗位 - 🚀 循序渐进:10个模块从基础逐步进阶到高级LLM基础设施 - 🔥 现代技术栈:2024-2025年技术(vLLM、RAG、GPU优化) — ## ✨ 最新动态 2026年5月更新: - 🧪 所有62个承诺的实验已编写完成,覆盖全部10个模块(基础→LLM基础设施)。每个实验都是一次完整的、可运行的动手实践,包含目标、前置要求、编号步骤、验证清单、清理和故障排除。 - 📒 新增两份阅读清单: advanced-engineer-path.mdstaff-engineer-path.md(分别对应9-18个月和2-5年路径)。 - 🧹 结构清理: 解决了mod-101讲座重复问题,整合了测验位置,用真实内容填充了空的Makefile/pyproject,修正了CURRICULUM.md中的自我声明以反映实际完成状态。 - 🔍 CURRICULUM.md诚实审查: 之前的“100%完成”声明已替换为按模块的练习/实验统计。讲座和项目质量优秀;练习完成了119个中的32个,将在后续内容更新中逐步补充。 更早的更新: - 📝 模块102-110的全面测验(265+问题) - 模块102:云计算(模块中测验+期末测验,50题) - 模块103:容器化(25题) - 模块104:Kubernetes(30题) - 模块105:数据管道(25题) - 模块106:MLOps(30题) - 模块107:GPU计算(25题) - 模块108:监控(25题) - 模块109:IaC(25题) - 模块110:LLM基础设施(30题) - 📋 技术版本指南 - 100+工具的完整规范 - 🗺️ 课程交叉参考 - 映射到初级工程师路线 - 📈 职业发展指南 - 从工程师到首席的路线图 — ## 📊 包含内容 ### 10个完整学习模块(130个文件) | 模块 | 主题 | 时长 | 状态 | 测验 | |––––|—––|—––|––––|——| | 01 | 基础 | 50小时 | ✅ 完成(15个文件) | ✅ 30题 | | 02 | 云计算 | 50小时 | ✅ 完成(11个文件) | ✨ +50题 | | 03 | 容器化 | 50小时 | ✅ 完成(14个文件) | ✨ +25题 | | 04 | Kubernetes | 50小时 | ✅ 完成(13个文件) | ✨ +30题 | | 05 | 数据管道 | 50小时 | ✅ 完成(12个文件) | ✨ +25题 | | 06 | MLOps | 50小时 | ✅ 完成(12个文件) | ✨ +30题 | | 07 | GPU计算 | 50小时 | ✅ 完成(12个文件) | ✨ +25题 | | 08 | 监控与可观测性 | 50小时 | ✅ 完成(11个文件) | ✨ +25题 | | 09 | 基础设施即代码 | 50小时 | ✅ 完成(12个文件) | ✨ +25题 | | 10 | LLM基础设施 | 50小时 | ✅ 完成(12个文件) | ✨ +30题 | ### 3个生产级项目(77个文件) | 项目 | 技术 | 时长 | 文件数 | 状态 | |———|———––|–––––|—––|––––| | 01: 基础模型服务 | FastAPI + K8s + 监控 | 30小时 | ~30 | ✅ 完成 | | 02: MLOps流水线 | Airflow + MLflow + DVC | 40小时 | 30 | ✅ 完成 | | 03: LLM部署 | vLLM + RAG + 向量数据库 | 50小时 | 47 | ✅ 完成 | 仓库总计: 207个文件 | ~95,000+行代码 | 500+小时的学习内容 — ## 🎓 前置要求 ### 选项1:完成初级课程(推荐) 如果你已完成初级人工智能基础设施工程师(https://github.com/ai-infra-curriculum/ai-infra-junior-engineer-learning)课程,则已具备所有所需前置条件!✅ 初级课程涵盖: - ✅ Python基础与高级概念 - ✅ Linux/Unix命令行掌握 - ✅ Git与版本控制工作流 - ✅ 机器学习基础(PyTorch、TensorFlow) - ✅ Docker与容器化 - ✅ Kubernetes入门 - ✅ API开发与数据库 - ✅ 监控与云平台 时长:440小时(兼职22周,全职11周) ### 选项2:自我评估 未完成初级课程? 使用我们的全面前置要求指南: - 通过详细的技能清单检查你的准备程度 - 识别知识缺口 - 获取个性化学习建议 - 运行自动化技能评估 ### 最低要求 如果自学,你必须具备: - Python 3.9+(中级水平:面向对象、异步、测试、类型提示) - Linux/Unix CLI(bash脚本、进程、调试) - Git基础(分支、合并、协作) - 机器学习基础(PyTorch/TensorFlow、训练、推理、评估) - Docker基础(镜像、容器、Compose) - Kubernetes入门(Pod、部署、服务) 👉 不确定是否准备好? 阅读前置要求指南进行详细评估。 — ## 🚀 快速开始 ### 快速启动 bash # 1. 克隆仓库 git clone https://github.com/ai-infra-curriculum/ai-infra-engineer-learning.git cd ai-infra-engineer-learning # 2. 创建虚拟环境 python3.11 -m venv venv source venv/bin/activate # Windows: venv\Scripts\activate # 3. 安装依赖 pip install -r requirements.txt # 4. 从模块01开始 cd lessons/mod-101-foundations cat README.md ### 学习路径 1. 模块01-02(基础) - 如果对ML基础设施不熟悉,从此处开始 2. 模块03-04(核心基础设施) - Docker和Kubernetes精通 3. 模块05-06(MLOps) - 数据管道和ML运维 4. 模块07-08(高级) - GPU计算和监控 5. 模块09-10(现代技术栈) - IaC和LLM基础设施 详细指南: GETTING_STARTED.md — ## 📖 课程概述 ### 模块01:基础 ✅ 50小时 | 15个文件 构建ML基础设施基础: - ML基础设施全景与职业路径 - Python环境搭建与最佳实践 - ML框架(PyTorch、TensorFlow) - Docker基础与容器化 - 使用FastAPI开发REST API 查看模块01 → — ### 模块02:云计算 ✅ 50小时 | 11个文件 掌握云平台上的ML: - ML工作负载的云架构 - AWS(EC2、S3、EKS、SageMaker) - GCP(Compute Engine、GCS、GKE、Vertex AI) - Azure(虚拟机、Blob存储、AKS、Azure ML) - 多云策略与成本优化(节省60-80%) 查看模块02 → — ### 模块03:容器化 ✅ 50小时 | 14个文件 深入容器技术: - Docker架构与最佳实践 - 多阶段构建与优化 - 使用Docker Compose构建多服务应用 - 容器注册表与镜像管理 - 安全与漏洞扫描 查看模块03 → — ### 模块04:Kubernetes ✅ 50小时 | 13个文件 掌握Kubernetes用于ML: - Kubernetes架构与组件 - 部署、服务、ConfigMap、Secret - GPU资源管理与调度 - 自动伸缩(HPA、VPA、集群伸缩器) - Helm图表与使用ArgoCD实现GitOps 查看模块04 → — ### 模块05:数据管道 ✅ 50小时 | 12个文件 构建稳健的数据管道: - 使用Apache Airflow实现工作流编排 - 使用Apache Spark进行数据处理 - 使用Apache Kafka实现流处理 - 使用DVC进行数据版本控制 - 数据质量验证与监控 查看模块05 → — ### 模块06:MLOps ✅ 50小时 | 12个文件 实施MLOps最佳实践: - 使用MLflow进行实验跟踪 - 模型注册表与版本控制 - 特征存储与工程 - ML模型的CI/CD - A/B测试与实验 - ML治理与最佳实践 查看模块06 → — ### 模块07:GPU计算与分布式训练 ✅ 50小时 | 12个文件 利用GPU算力: - CUDA编程基础 - PyTorch GPU加速 - 分布式训练(DDP、FSDP) - 多GPU与多节点训练 - 模型并行与流水线并行 - GPU内存优化 查看模块07 → — ### 模块08:监控与可观测性 ✅ 50小时 | 11个文件 构建全面的可观测性: - Prometheus与Grafana - 指标、日志和链路(OpenTelemetry) - 使用Jaeger实现分布式追踪 - 告警与事件响应 - 模型性能监控 - SLI、SLO和SLA 查看模块08 → — ### 模块09:基础设施即代码 ✅ 50小时 | 12个文件 自动化基础设施: - Terraform基础与最佳实践 - 使用Pulumi实现多语言IaC - 使用CloudFormation管理AWS - 状态管理与模块 - 多环境部署 - GitOps工作流 查看模块09 → — ### 模块10:LLM基础设施 ✅ 50小时 | 12个文件 掌握前沿LLM基础设施(2024-2025): - 使用vLLM和TensorRT-LLM进行LLM服务 - RAG(检索增强生成) - 向量数据库(Pinecone、Weaviate、Milvus) - 模型量化(FP16、INT8) - 推理场景下的GPU优化 - 成本追踪与优化 查看模块10 → — ## 🛠️ 项目 ### 项目01:基础模型服务系统 ✅ ⭐ 初级 | 30小时 | ~30个文件 构建完整的模型服务系统: - 用于图像分类的FastAPI REST API - Docker容器化与优化 - 带监控的Kubernetes部署 - Prometheus和Grafana仪表盘 - 使用GitHub Actions的CI/CD流水线 技术栈: FastAPI、Docker、Kubernetes、PyTorch、Prometheus、Grafana 查看项目01 → — ### 项目02:端到端MLOps流水线 ✅ ⭐⭐ 中级 | 40小时 | 30个文件 创建生产级MLOps流水线: - Apache Airflow DAG(数据、训练、部署) - MLflow实验跟踪与模型注册表 - 使用DVC进行数据版本控制 - 自动化模型部署到Kubernetes - 全面的监控与告警 - 带自动测试的CI/CD 技术栈: Airflow、MLflow、DVC、PostgreSQL、Redis、MinIO、Kubernetes 查看项目02 → — ### 项目03:LLM部署平台 ✅ ⭐⭐⭐ 高级 | 50小时 | 47个文件 部署前沿LLM基础设施: - 使用vLLM/TensorRT-LLM实现优化服务 - 带向量数据库的RAG系统(Pinecone/ChromaDB/Milvus) - 文档摄取管道(PDF、TXT、网页) - 带服务器发送事件流的FastAPI - 支持GPU的Kubernetes - 成本追踪与优化 - 全面监控 技术栈: vLLM、LangChain、向量数据库、FastAPI、Kubernetes + GPU、Transformers 查看项目03 → — ## 💰 成本考量 ### 云成本 所有学习材料可在免费层级限制内完成: - AWS:每月750小时t2.micro + 300积分(视情况而定) - **GCP**:300积分(90天) - Azure200积分(30天) **GPU成本**(可选,用于高级项目): - 按需实例:1-3/小时 - 竞价实例:0.30-1/小时(节省70%) - 估算总计:完成全部课程需50-150 ### 优化建议 - 使用竞价实例进行训练(节省60-90%) - 跨多个云提供商利用免费层级 - 不使用资源时及时删除 - 尽可能使用本地开发 — ## 📚 资源 ### 包含的文档 - 带示例的全面课程材料 - 带有TODO注释的代码模板,引导实现 - 带架构图的完整项目规范 - 每个模块的测验和评估 - 最佳实践与设计模式 ### 外部资源 - 📖 阅读清单resources/reading-lists/ — 高级+首席工程师路径 - 🛠️ 速查表resources/cheat-sheets/ — docker、kubernetes、git、linux、python基础设施 - ❓ 常见问题resources/faq.md ### 课程文档 - 📋 技术版本指南 - 所有工具和框架的推荐版本 - 🗺️ 课程交叉参考(https://github.com/ai-infra-curriculum/.github/blob/main/CURRICULUM_CROSS_REFERENCE.md) - 初级与工程师路线的映射 - 📈 职业发展指南(https://github.com/ai-infra-curriculum/.github/blob/main/CAREER_PROGRESSION.md) - 从初级到首席的完整职业阶梯 — ## 🎯 学习成果与职业影响 ### 完成后,你将能够胜任以下职位: 人工智能基础设施工程师 - 💰 薪资:$120,000 - 180,000 - 🏢 公司:科技公司、AI初创企业、ML型组织 - 📈 需求:非常高(年增长35%) **ML平台工程师** - 💰 薪资:130,000 - 190,000 - 🏢 公司:大型科技公司、拥有ML团队的企业 - 📈 需求:高(专业化角色) **MLOps工程师** - 💰 薪资:110,000 - $170,000 - 🏢 公司:所有大规模开展ML的组织 - 📈 需求:非常高(增长最快的ML角色) ### 你将展示的技能 ✅ 具备GPU调度的Kubernetes专业知识 ✅ 端到端MLOps流水线实现 ✅ LLM基础设施与RAG系统 ✅ 分布式训练与GPU优化 ✅ 生产级监控与可观测性 ✅ 云平台掌握(AWS、GCP、Azure) ✅ 使用Terraform实现基础设施即代码 ✅ 成本优化策略 — ## 📊 仓库统计 - 总文件数: 207 - 估计代码行数: ~95,000+ - 模块: 10(全部完成) - 项目: 3(全部完成) - 学习时长: 500+小时 - 技术: 50+ ### 涵盖的技术栈 核心基础设施: Docker、Kubernetes、Terraform、Helm、ArgoCD ML与数据: PyTorch、TensorFlow、Apache Airflow、Apache Spark、Kafka、DVC MLOps: MLflow、特征存储、模型注册表、CI/CD LLM基础设施: vLLM、TensorRT-LLM、LangChain、向量数据库(Pinecone、Milvus、ChromaDB) 云平台: AWS(EC2、S3、EKS、SageMaker)、GCP(GCE、GCS、GKE、Vertex AI)、Azure(虚拟机、AKS、Azure ML) 监控: Prometheus、Grafana、OpenTelemetry、Jaeger、ELK栈 GPU计算: CUDA、NCCL、多GPU训练、分布式训练 — ## 🤝 贡献 我们欢迎各

相似文章

rohitg00/ai-engineering-from-scratch

GitHub Trending (daily)

一个全面、免费、开源的人工智能工程课程,包含20个阶段的428节课程,涵盖从数学基础到使用Python、TypeScript、Rust和Julia实现的自主集群。