@shedoesai: 如何在不浪费1000多小时的情况下精通AI。没有无用的教程。没有虚假的AI大师。没有信息过载…
摘要
精选的AI学习栈,涵盖LLM、智能体、MCP、提示工程、RAG和向量数据库,包含视频、仓库、指南、书籍、论文和课程。同时提供了关于大型语言模型是什么以及它们如何工作的易懂解释。
查看缓存全文
缓存时间: 2026/05/14 12:36
如何在不浪费1000+小时的情况下,精通AI。没有无用的教程。没有虚假的AI大师。没有信息过载。我花了几周时间筛选互联网,这样你就不必了。这是终极AI学习栈,涵盖: • 大型语言模型(LLM) • AI智能体(AI Agents) • 模型上下文协议(MCP) • 提示工程(Prompt Engineering) • 检索增强生成(RAG) • AI工程(AI Engineering) • 向量数据库(Vector Databases)
视频 LLM入门介绍 https://youtube.com/watch?v=zjkBMFhNj_g… 从零构建LLM https://youtube.com/watch?v=9vM4p9NN0Ts… 智能体AI概述(斯坦福大学) https://youtube.com/watch?v=kJLiOGIe3Lw… 构建与评估智能体 https://youtube.com/watch?v=d5ElIXhbcfA… 构建高效智能体 https://youtube.com/watch?v=D7_ipDqhtwk… 使用MCP构建智能体 https://youtube.com/watch?v=kQmXtrmQ5Zg…
仓库 微软AI智能体初学者指南 https://github.com/microsoft/ai-agents-for-beginners… 提示工程指南 https://github.com/dair-ai/Prompt-Engineering-Guide… 动手学LLM https://github.com/HandsOnLLM/Hands-On-Large-Language-Models… 用ML做项目 https://madewithml.com LLM课程 https://github.com/mlabonne/llm-course…
指南 Google智能体白皮书 https://kaggle.com/whitepaper-agent… Anthropic:构建高效智能体 https://anthropic.com/engineering/building-effective-agents… OpenAI智能体实用指南 https://platform.openai.com/docs/guides/agents…
书籍 从零构建LLM https://manning.com/books/build-a-large-language-model-from-scratch… LLM工程手册 https://oreilly.com/library/view/llm-engineering/9781098167298/… AI工程 https://oreilly.com/library/view/ai-engineering/9781098166291/…
论文 ReAct https://arxiv.org/abs/2210.03629 Toolformer https://arxiv.org/abs/2302.04761 生成式智能体 https://arxiv.org/abs/2304.03442
课程 HuggingFace智能体课程 https://huggingface.co/learn/agents-course… Anthropic的MCP课程 https://anthropic.com/engineering
收藏好这份资料。你很快就会用到它。
TL;DR: 大型语言模型本质上就是两个文件(参数文件+运行代码),通过预测下一个词来压缩互联网文本,训练成本高昂但推理相对廉价,而且我们目前并不完全理解其内部工作机制。
什么是大型语言模型?
大型语言模型就是两个文件。以 Meta 发布的 Llama 2 70B 为例,该模型有 700 亿参数,是 Llama 系列的顶级开源权重模型。Meta 将权重、架构和论文全部公开,任何人都可以自由使用。这与 ChatGPT 等闭源模型不同,那些模型你只能通过网页界面访问,无法真正拿到模型本身。
在你的文件系统中,这两个文件分别是:
- 参数文件:包含神经网络的所有权重或参数。因为模型有 700 亿参数,每个参数占用 2 字节(16 位浮点数),所以文件大小为 140 GB。
- 运行文件:实现神经网络的代码,可以用 C、Python 或其他语言编写。用 C 写只需要约 500 行,无其他依赖。编译后生成可执行文件,指向参数文件,就能直接与模型对话。例如输入“写一首关于 Scale AI 公司的诗”,模型就会生成文本。
把这两个文件放到 MacBook 上就是一套完整的包,不需要联网或其他东西。但 70B 参数的推理速度比 7B 慢大约 10 倍。
参数从何而来?训练 vs. 推理
推理(在你的 MacBook 上运行模型)相对简单,但获得参数的过程——训练——极其复杂。训练本质上是对很大一部分互联网数据进行“有损压缩”。以 Llama 2 70B 为例,从 Meta 发表的论文中我们了解到:
- 需要约 10 TB 的文本数据(来自网络抓取)。
- 需要约 6000 个 GPU,运行约 12 天。
- 花费约 200 万美元。
- 输出 140 GB 的参数(相当于 100 倍压缩比,但这是有损压缩)。
和传统压缩包不同,这里不是精确复制,而是从训练文本中提取整体“印象”。按今天标准,这些数字对最先进的模型已算“小菜一碟”。ChatGPT、Claude、Bard 等模型使用的顶尖神经网络,这些数字要乘以 10 甚至更多。现在的训练运行花费数千万甚至数亿美元。
神经网络在做什么?
这个神经网络的核心任务就是预测序列中的下一个词。例如输入“The cat sat on a”,经过网络中分散的 700 亿参数处理后,输出“mat”的概率为 97%。数学上可以证明预测和压缩之间有紧密关系,所以训练模型类似压缩互联网。
下一个词预测看似简单,实则非常强大。它迫使网络在参数内部学习大量关于世界的知识。比如维基百科上关于 Ruth Handler 的页面,模型要预测下一个词,就必须学习她的出生去世时间、她的身份和贡献等。所有这些知识都被压缩到了权重里。
模型如何使用?推理过程
训练完成后,推理就是不断生成下一个词然后迭代:从模型采样一个词,喂回去得到下一个词,再继续。这样网络就会“梦想”出互联网文档。例如:
- 左边看起来像 Java 代码。
- 中间看起来像亚马逊产品页面(标题、作者、ISBN 号等,全是编造的,比如 ISBN 号很可能不存在)。
- 右边看起来像维基百科文章(比如关于“黑鼻鱼”的内容大致正确,但并非逐字取自训练集)。
这本质上是有损压缩的“幻觉”。模型记住了整体知识,生成正确形式,但你不能 100% 确定它是否正确。有些是记忆,有些不是,你无法确切区分。
Transformer 架构与不可解释性
如果放大这个“玩具图”,你会看到所谓的 Transformer 神经网络架构。我们完全理解架构中各阶段的数学运算,也知道如何优化参数来提高预测能力。但我们并不真正知道那 700 亿参数具体在做什么。我们可以测量到改进,却不知道它们如何协作完成任务。我们有高层次模型去想象网络可能在做的事,但即使这个“知识库”也非常奇怪、不完美。
一个病毒式传播的例子是“反转诅咒”:问 GPT-4“汤姆·克鲁斯的母亲是谁”,它回答“玛丽·李·法伊弗”(正确)。但问“玛丽·李·法伊弗的儿子是谁”,它就不知道了。知识似乎是单维度的,不能像传统数据库那样从各个方向访问。我们从根本上并不真正理解原因,只能测量它是否有效以及概率如何。
所以,大型语言模型大多是难以理解的产物。它们不像汽车那样我们大致了解所有部件。它们来自一个漫长的优化过程,目前我们可以做“可解释性”研究,但远不能完全解释。大多时候我们只把它们当作经验产物:给输入,测输出,观察行为,这需要相应复杂的评估。
进入微调阶段:从文档生成器到助手
以上讨论的都是预训练阶段——模型就是一个互联网文档生成器。下一步是微调,这是我们获得所谓“助手模型”的地方。因为我们并不只是想要一个文档生成器,它对很多任务没有用。我们想要——(注:此处转录截断,后续内容未提供。)
Source: https://www.youtube.com/watch?v=zjkBMFhNj_g
相似文章
@ajitcodes: 别再浪费几个小时去学习 AI 了。我已经帮你整理好了。一份清单,零困惑,无废话。视频……
精选的链接合集,包含学习 AI、LLM(大型语言模型)以及构建 AI 智能体(Agents)所需的视频、代码库、指南、书籍和论文。
owainlewis/awesome-artificial-intelligence
一份精心整理的、用于构建和交付AI系统的必用且积极维护的资源合集,涵盖AI工程主题,如RAG、智能体、评估、护栏和部署,以及推荐的书籍、课程和里程碑式论文。
@dkare1009: 大多数AI工程师从零散的博客文章和过时的教程中学习。一本指南书刚刚将一切整合在一起。T…
一本新的综合性AI工程指南书整合了关于LLM基础、微调、RAG、智能体系统和部署的知识,旨在帮助工程师构建可投产的AI系统。
@FakeMaidenMaker: AI 工程师全栈路线:带你从零基础开始从数学到大模型到 Agent 全部搞懂 网上 AI 资料一堆,但都是碎片——这里一篇微调、那里一个 agent demo、随便一搜全是"5 分钟搭一个 RAG"的快餐,真正从数学到 LLM 到 age…
A free, open-source AI engineering curriculum that covers math, LLMs, and agents across 20 phases and 435 lessons in Python, TypeScript, Rust, and Julia, designed to fill gaps in fragmented AI tutorials.
2026年学习人工智能的实用指南
本视频指南提供了一种循序渐进的方法来掌握2026年的人工智能,强调深度而非频繁切换工具,并涵盖ChatGPT、Gemini和Claude等生态系统。