标签
成为AI/ML工程师所需学习主题的详细路线图,涵盖数学基础、深度学习架构、训练技巧、数据管道、评估、推理、MLOps和负责任AI。
本文深入探讨了 Forward Deployed Engineering (FDE) 在 AI 落地中的真正含义,强调 FDE 并非简单的 API 调用或搭建 Agent,而是面向生产落地的系统工程,包括业务翻译、系统设计、平台整合、生产运营和能力沉淀。
一条推文宣布了LLM-Evaluation,这是一个公共GitHub仓库,包含用于评估LLM、生成式AI和RAG系统的研讨会幻灯片、示例笔记本、提示词和参考链接,旨在提供评估工作流的实用地图。
一条Twitter帖子概述了2026年AI工程面试中占据主导地位的七个关键领域,包括LLM基础、RAG系统、智能体工作流、推理优化、评估、MLOps以及生产实践。
这篇文章讨论了企业AI项目从概念验证到生产部署过程中常见的失败原因,强调了MLOps、提前检查真实数据、明确人机边界等关键实践,认为项目失败往往不是因为模型不行,而是因为工程落地环节的忽视。
哈佛大学开源《Machine Learning Systems》教材,系统讲解ML系统设计、数据工程、模型部署、MLOps和边缘AI等实践内容,旨在帮助将AI从研究落地到生产环境,免费获取于GitHub。
一个免费开源的AI工程课程,涵盖从线性代数到自主智能体集群的20个阶段,包含Python、TypeScript、Rust和Julia的动手构建。所有材料均可重复使用,并可连接到Claude Code或Cursor。
DanKornas 介绍了一个开源的 AI 基础设施工程师学习路径,这是一个结构化的 10 模块课程,涵盖从基础到 LLM 基础设施的内容,包含实践实验和项目。
一个全面的500小时学习路径,涵盖AI基础设施工程,包括Docker、Kubernetes、MLOps、LLM基础设施等,通过动手项目和实验进行学习。
本文介绍了一种多时间尺度时间序列预测框架,使用DLinear和NLinear模型预测急诊科滞留时间,并开发了一个MLOps网页应用原型,以支持主动运营决策。
TRACER是一种工具,通过从LLM痕迹中学习,用轻量级传统机器学习替代多达90%的LLM分类调用,降低成本同时保持准确性。
Adaption AI 推出了 AutoScientist,这是一款能够自动化完整研究循环的工具,旨在让顶尖实验室之外的模型训练变得更加触手可及。
基于对 50 多个 AI 团队的访谈,作者指出生产环境中的智能体故障往往源于细微的提示词或配置问题,而非深层模型缺陷。文章主张采用版本控制、A/B 测试和实验跟踪等软件工程实践以提高可靠性。
An opinion piece suggesting that AI teams will increasingly focus on 'harness engineering' and advocating for a review article on the framework.
Fireworks AI 宣布其训练平台进入预览阶段,允许开发者训练、微调并部署自定义 AI 模型,同时完全拥有数据和模型权重。
Hugging Face 推出 Storage Buckets,这是 Hub 上全新的可变性类 S3 对象存储功能,通过其 Xet 后端实现高效去重,专为生产级 ML 工作流优化。
# Kubernetes 扩展到 7,500 个节点 来源:[https://openai.com/index/scaling-kubernetes-to-7500-nodes/](https://openai.com/index/scaling-kubernetes-to-7500-nodes/) OpenAI将单个 Kubernetes 集群扩展到这个规模很少见,需要特殊的关注,但好处是提供了一个简单的基础设施,让我们的机器学习研究团队能够更快地迭代并扩展,而无需改变代码。从我们之前关于[扩展到 2,500 个节点](https://openai.com/index/scaling-kube)的文章以来