@shedoesai: How to become dangerously good at AI without wasting 1000+ hours. No useless tutorials. No fake AI gurus. No informatio…

X AI KOLs Timeline 05/12/26, 03:50 PM News

Summary

A curated learning stack for AI covering LLMs, agents, MCP, prompt engineering, RAG, and vector databases, including videos, repositories, guides, books, papers, and courses. Also provides an accessible explanation of what large language models are and how they work.

How to become dangerously good at AI without wasting 1000+ hours. No useless tutorials. No fake AI gurus. No information overload. I spent weeks filtering the internet so you don’t have to. Here’s the ultimate AI learning stack for: • LLMs • AI Agents • MCP • Prompt Engineering • RAG • AI Engineering • Vector Databases Videos LLM Introduction https://youtube.com/watch?v=zjkBMFhNj_g… LLMs from Scratch https://youtube.com/watch?v=9vM4p9NN0Ts… Agentic AI Overview (Stanford) https://youtube.com/watch?v=kJLiOGIe3Lw… Building & Evaluating Agents https://youtube.com/watch?v=d5ElIXhbcfA… Building Effective Agents https://youtube.com/watch?v=D7_ipDqhtwk… Building Agents with MCP https://youtube.com/watch?v=kQmXtrmQ5Zg… Repositories Microsoft AI Agents for Beginners https://github.com/microsoft/ai-agents-for-beginners… Prompt Engineering Guide https://github.com/dair-ai/Prompt-Engineering-Guide… Hands-On LLMs https://github.com/HandsOnLLM/Hands-On-Large-Language-Models… Made With ML https://madewithml.com LLM Course https://github.com/mlabonne/llm-course… Guides Google Agent Whitepaper https://kaggle.com/whitepaper-agent… Building Effective Agents by Anthropic https://anthropic.com/engineering/building-effective-agents… OpenAI Practical Guide to Agents https://platform.openai.com/docs/guides/agents… Books Building LLMs from Scratch https://manning.com/books/build-a-large-language-model-from-scratch… The LLM Engineering Handbook https://oreilly.com/library/view/llm-engineering/9781098167298/… AI Engineering https://oreilly.com/library/view/ai-engineering/9781098166291/… Papers ReAct https://arxiv.org/abs/2210.03629 Toolformer https://arxiv.org/abs/2302.04761 Generative Agents https://arxiv.org/abs/2304.03442 Courses HuggingFace Agents Course https://huggingface.co/learn/agents-course… MCP with Anthropic https://anthropic.com/engineering Bookmark this. You’ll need it sooner than you think.

Original Article

View Cached Full Text

Cached at: 05/14/26, 12:36 PM

TL;DR: 大型语言模型本质上是两个文件（参数文件+运行代码），通过预测下一个词来压缩互联网文本，训练成本高昂但推理相对廉价，且目前我们并不完全理解其内部工作机制。

什么是大型语言模型？

大型语言模型就是两个文件。以 Meta 发布的 Llama 2 70B 为例，该模型有 700 亿参数，是 Llama 系列的顶级开源权重模型。Meta 将权重、架构和论文全部公开，任何人都可以自由使用。这与 ChatGPT 等闭源模型不同，那些模型你只能通过网页界面访问，无法真正拿到模型本身。

在你的文件系统中，这两个文件分别是：

参数文件：包含神经网络的所有权重或参数。因为模型有 700 亿参数，每个参数占用 2 字节（16 位浮点数），所以文件大小为 140 GB。
运行文件：实现神经网络的代码，可以用 C、Python 或其他语言编写。用 C 写只需要约 500 行，无其他依赖。编译后生成可执行文件，指向参数文件，就能直接与模型对话。例如输入“写一首关于 Scale AI 公司的诗”，模型就会生成文本。

把这两个文件放到 MacBook 上就是一套完整的包，不需要联网或其他东西。但 70B 参数的推理速度比 7B 慢大约 10 倍。

参数从何而来？训练 vs. 推理

推理（在你的 MacBook 上运行模型）相对简单，但获得参数的过程——训练——极其复杂。训练本质上是对很大一部分互联网数据进行“有损压缩”。以 Llama 2 70B 为例，从 Meta 发表的论文中我们了解到：

需要约 10 TB 的文本数据（来自网络抓取）。
需要约 6000 个 GPU，运行约 12 天。
花费约 200 万美元。
输出 140 GB 的参数（相当于 100 倍压缩比，但这是有损压缩）。

和传统压缩包不同，这里不是精确复制，而是从训练文本中提取整体“印象”。按今天标准，这些数字对最先进的模型已算“小菜一碟”。ChatGPT、Claude、Bard 等模型使用的顶尖神经网络，这些数字要乘以 10 甚至更多。现在的训练运行花费数千万甚至数亿美元。

神经网络在做什么？

这个神经网络的核心任务就是预测序列中的下一个词。例如输入“The cat sat on a”，经过网络中分散的 700 亿参数处理后，输出“mat”的概率为 97%。数学上可以证明预测和压缩之间有紧密关系，所以训练模型类似压缩互联网。

下一个词预测看似简单，实则非常强大。它迫使网络在参数内部学习大量关于世界的知识。比如维基百科上关于 Ruth Handler 的页面，模型要预测下一个词，就必须学习她的出生去世时间、她的身份和贡献等。所有这些知识都被压缩到了权重里。

模型如何使用？推理过程

训练完成后，推理就是不断生成下一个词然后迭代：从模型采样一个词，喂回去得到下一个词，再继续。这样网络就会“梦想”出互联网文档。例如：

左边看起来像 Java 代码。
中间看起来像亚马逊产品页面（标题、作者、ISBN 号等，全是编造的，比如 ISBN 号很可能不存在）。
右边看起来像维基百科文章（比如关于“黑鼻鱼”的内容大致正确，但并非逐字取自训练集）。

这本质上是有损压缩的“幻觉”。模型记住了整体知识，生成正确形式，但你不能 100% 确定它是否正确。有些是记忆，有些不是，你无法确切区分。

Transformer 架构与不可解释性

如果放大这个“玩具图”，你会看到所谓的 Transformer 神经网络架构。我们完全理解架构中各阶段的数学运算，也知道如何优化参数来提高预测能力。但我们并不真正知道那 700 亿参数具体在做什么。我们可以测量到改进，却不知道它们如何协作完成任务。我们有高层次模型去想象网络可能在做的事，但即使这个“知识库”也非常奇怪、不完美。

一个病毒式传播的例子是“反转诅咒”：问 GPT-4“汤姆·克鲁斯的母亲是谁”，它回答“玛丽·李·法伊弗”（正确）。但问“玛丽·李·法伊弗的儿子是谁”，它就不知道了。知识似乎是单维度的，不能像传统数据库那样从各个方向访问。我们从根本上并不真正理解原因，只能测量它是否有效以及概率如何。

所以，大型语言模型大多是难以理解的产物。它们不像汽车那样我们大致了解所有部件。它们来自一个漫长的优化过程，目前我们可以做“可解释性”研究，但远不能完全解释。大多时候我们只把它们当作经验产物：给输入，测输出，观察行为，这需要相应复杂的评估。

进入微调阶段：从文档生成器到助手

以上讨论的都是预训练阶段——模型就是一个互联网文档生成器。下一步是微调，这是我们获得所谓“助手模型”的地方。因为我们并不只是想要一个文档生成器，它对很多任务没有用。我们想要——（注：此处转录截断，后续内容未提供。）

Source: https://www.youtube.com/watch?v=zjkBMFhNj_g

@shedoesai: How to become dangerously good at AI without wasting 1000+ hours. No useless tutorials. No fake AI gurus. No informatio…

什么是大型语言模型？

参数从何而来？训练 vs. 推理

神经网络在做什么？

模型如何使用？推理过程

Transformer 架构与不可解释性

进入微调阶段：从文档生成器到助手

Similar Articles

@ajitcodes: Stop wasting hours trying to learn AI. I have already done it for you. With one list. Zero confusion. And no fluff. Vid…

@heyshrutimishra: This 1 hour tutorial from Stanford University will teach you AI agents, Prompts & RAG for FREE

@AvinashSingh_20: 10 GitHub Repos To Learn in-depth Ai engineering ! 1 :- https://github.com/Avik-Jain/100-Days-Of-ML-Code… 2 :- https://…

@phosphenq: This 2 hour video by Andrej Karpathy (co-founder of OpenAI) will teach you more about using LLMs than every AI tutorial…

@JaynitMakwana: AI engineers at top labs earn $500K+ a year to build agentic AI systems. Stanford just dropped a 90 min lecture that co…

Submit Feedback

Similar Articles

@ajitcodes: Stop wasting hours trying to learn AI. I have already done it for you. With one list. Zero confusion. And no fluff. Vid…

@heyshrutimishra: This 1 hour tutorial from Stanford University will teach you AI agents, Prompts & RAG for FREE

@AvinashSingh_20: 10 GitHub Repos To Learn in-depth Ai engineering ! 1 :- https://github.com/Avik-Jain/100-Days-Of-ML-Code… 2 :- https://…

@phosphenq: This 2 hour video by Andrej Karpathy (co-founder of OpenAI) will teach you more about using LLMs than every AI tutorial…

@JaynitMakwana: AI engineers at top labs earn $500K+ a year to build agentic AI systems. Stanford just dropped a 90 min lecture that co…