@tanzhengmc97: https://x.com/tanzhengmc97/status/2066531753762656730

X AI KOLs Timeline 新闻

摘要

用通俗易懂的语言解释了大模型的运行原理,包括词向量、Transformer注意力机制、下一个词预测训练以及涌现能力,适合初学者理解AI基础概念。

https://t.co/0CMDy1eD1Q
查看原文
查看缓存全文

缓存时间: 2026/06/15 21:09

大模型的内部运行原理——10岁小孩都能看懂

最近为了转行Agent产品经理,在自学Agent相关知识,知道基础概念、概念之间的关系、大概原理即可。

转行能不能成功不知道,但想着不能白学,不如把学的东西也做成内容发出来,还可以当做笔记。

正文开始:

一句话总结大模型的原理

你就把大模型想成一个读了全世界所有书的**“接话王”。** 你说上半句,它接下半句,就这么简单。(其实就是个猜词机器)

一、词向量(Word Vector):它怎么认识字的?

我们人类看到“猫“,脑子里出现一只毛球。大模型不行,它是个计算机,只认数字。

所以它把每个词转化成一串数字,这串数字叫词向量,有一万多位。巧妙的地方在于:意思越像的词,向量越接近。“猫“和“狗“的向量很接近,“猫“和“卡车“的向量差十万八千里。

这样大模型不认识猫长什么样,但它知道“猫“和“狗“是一伙的,“猫“和“卡车“不是一伙的。

更厉害的是,向量还能做算术(加减乘除):“国王“减“男人“加“女人”,结果最接近“女王“。光靠这套数字系统,它就能理解词和词之间的各种微妙关系了。

二、Transformer:它怎么接话的?

大模型的核心架构叫Transformer,由很多层堆叠而成(GPT-3有96层)。每一层做两件事:

第一步:注意力机制(Attention)——回头看,谁跟谁有关系?

比如你输入“今天天气真好,我想去公园“,大模型会把每个词都互相看一遍。“我“是谁?看看前面——哦,是说话的人。“公园“是什么语境?看看周围——哦,跟天气好、想出去有关。

用大白话说:它在你说的话里前后看,搞清楚谁跟谁有关。每一层有很多个注意力头(Attention Head,我也不懂,了解就行)同时工作,有的负责搞清楚“他“指的是谁,有的负责搞清楚一词多义,各管各的,同时干活。

第二步:前馈网络(Feed-Forward Network)——翻记忆,以前学过啥?

搞清楚上下文之后,它去翻自己读过的那几千亿字的“记忆“:以前看过的文章里,说完“去公园“后面一般接什么?可能是“散步““野餐”“玩耍”。然后它挑一个概率最大的词输出。

简单说分工就是:注意力机制从你给的文字里找线索,前馈网络从训练时背下来的知识里找答案。

第三步:重复

输出一个词之后,它把这个词也加进去,再猜下一个词。一个一个猜,一句话就出来了。AI打字的时候一个字一个字蹦出来,就是因为它真的在一个字一个字地猜。

三、训练:它怎么变聪明的?

训练用的是“下一个词预测“(Next Token Prediction,其实就是前面讲的,猜下一个词)这个方法,特别笨但特别有效:

拿来一句话,比如“小明饿了,他想吃___“,挡住最后一个词,让大模型猜。

刚开始它啥都不会,瞎猜,可能猜“椅子“。错了,那就通过反向传播(Backpropagation) 算法微调内部的参数,让下次猜“饭“的可能性大一点。

就这一招,重复几十亿次,喂几千亿个词。

你可以想象教一个小孩说话:他说错了你纠正,说对了你点头,说个几亿次,他就学会了。大模型就是这么个过程,只不过它“练习“的次数比任何人类都多得多。

四、涌现能力(Emergent Abilities):最神奇的一件事

没人教大模型推理、写诗、编代码,大家只是让它猜下一个词,但是当它读的东西够多、参数够多之后,它突然就会做这些事了。这叫涌现能力

就好像你只教一个小孩认字,认了足够多的字之后,他突然自己学会了讲道理、编故事。

没人知道这一步是怎么发生的,但它就是发生了。模型越大,这种“突然开窍“的事越多。

最后总结:做AI产品经理记住三件事就够

第一,大模型的本质是猜词。 所以它不是真的“懂“,它会编造看起来合理但其实是错的东西,这叫幻觉(Hallucination,我们常说的一本正经胡说八道**)**。设计Agent的时候必须考虑怎么兜底。

第二,它靠上下文干活。 你给它的**提示词(Prompt)**就是它的全部线索。提示词写得好,它表现就好。这就是为什么Prompt设计对Agent产品至关重要。

第三,能力天花板取决于底层模型。 模型越大越新,你的Agent能做的事就越多。选对模型、跟上模型迭代,是产品决策的一部分。

相似文章

@vincemask: 串起来看,就是 AI 的完整链路: 底层原理 → 模型运作 → 能力优化 → 产品落地 拆成 4 层就清楚了: 1. 原理层:AI 的地基 神经网络、分词、嵌入、注意力、Transformer。 解决的是:模型如何理解文字、语义和上下文。…

X AI KOLs Timeline

该帖将AI的完整链路分为四个层次:原理层、LLM运作层、优化层和系统层,分别解释模型如何理解语言、生成答案、优化性能以及落地产品。

@NFTCPS: 天天喊着搞AI,结果你连Transformer是个啥都说不清? 有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链…

X AI KOLs Timeline

一个GitHub开源项目,从零实现完整的GPT训练流程,包含数据预处理、预训练、SFT和RLHF后训练,全部基于原生PyTorch,适合想深入理解Transformer原理的开发者。

@NFTCPS: 兄弟们,搞AI不搞大模型,等于白干! 今天必须给你们安利一本开源神书《大模型基础》,别等了,看它就够了! 这书不跟你整那些虚的,一招打透!从大语言模型入门到架构演化,再一口气给你拆解Prompt工程、参数高效微调、模型编辑、RAG(检索增…

X AI KOLs Timeline

该文章推广了开源书籍《大模型基础》,系统讲解大语言模型相关知识,并介绍了多智能体开发框架Agent-Kernel。