吐槽：别再说什么LLM只是“下一个词预测器”了。

Reddit r/singularity 2026/05/17 17:18 新闻

摘要

对LLM“只是下一个词预测器”这一过于简单化的说法提出批判，认为大规模预测会诱导出有用的表示和能力，并且这种轻率的否定混淆了目标与学习系统。

没有什么比这句话更能让我看出某人对AI（及相关话题）了解之浅了。我明白人们在一个帖子下留个单句评论时想表达什么。对于许多常见的LLM，尤其是GPT风格的自回归模型，下一个词预测是预训练和生成的核心。最简单的场景：训练模型预测下一个词 > 一次生成一个词 > 将其封装在更大的系统中，包含提示、解码规则、工具、检索、记忆等。确实如此。但说LLM**只是**下一个词预测器，这种说法在技术上有依据，却极具误导性，且对不明真相的围观者有害。它混淆了**目标/接口**与**学习系统**。一个训练好的模型不仅仅是它的损失函数。说“它预测下一个词”就像说国际象棋引擎“只是选得分最高的走法”，或者说**音乐家“只是弹下一个音符”**。没错，但这是极其无力的论证。它跳过了我们真正关心的东西：学到了什么结构，形成了什么表示，训练后的网络似乎实现了什么计算，以及产生了什么能力。为了大规模地良好预测文本，模型会被激励去学习编码语法、句法、风格、语义关系、事实规律、代码模式、社会习俗、话语结构和类似推理的启发式方法的表示。其中一些是浅层模式匹配；一些是记忆；一些是脆弱的；一些是虚假相关，但也有一些似乎是有用的抽象。是的，不像人类那样完美，也不具备同样的具身性、持久记忆、能动性等，但也不像人们用“自动补全”所暗示的那样肤浅。当人们说“只是下一个词预测器”时，往往暗含一个更强的论断： >“它预测下一个词，因此它什么都不理解。” “它预测下一个词，因此它无法推理。” “它预测下一个词，因此所有表面的智能都是假的。” 这些结论并不成立。预测可能需要建模。如果我让你预测下一步… * 在一盘国际象棋中，最好的预测器可能需要表示棋盘、合法走法、威胁、计划和战略背景。 * 在一个证明中，最好的预测器可能需要跟踪逻辑。 * 在一行代码中，最好的预测器可能需要推断目标、约束、API行为和可能的实现。预测并不能保证深度理解，但也不阻止理解。LLM是否“理解”部分取决于人们对理解的定义。如果指的是意识、生活经验、感受性、能动性、具身性或类人心理状态，那么我认为当前的LLM不具备这些，而且我们也没有充分证据表明它们有。但意识本身也并非一个已解决的问题，所以我会谨慎对待那种用“哈哈它预测token”就当尘埃落定的做法。这个论证不能只是“目标是预测，所以理解是不可能的。”但论证也不能是“目标是预测，所以理解是不可能的。”人们一直在忽略这个区别。LLM可能感觉像魔法，但它们不是魔法。我不认为我们有充分证据表明当前LLM有意识、有感觉或拥有生活经验：它们会产生幻觉，它们很脆弱，它们能产生类似推理的输出但无法可靠泛化，而且它们常常需要工具、检索、验证和人类监督。但这并不是人们以为的“绝杀”。人类也需要工具、笔记、计算器、例行程序、同行评审、代码审查、编辑、导师和制度性支撑。重点不在于人类是不需要支撑的心灵，而LLM因为需要支持就是假的；重点在于LLM有不同的……失败模式、接地方式、记忆、能动性和问责结构。而“只是下一个词预测”本身并不是对这些局限性的严肃分析。这是一个事实上可辩护的说法，意在嘲笑某些东西，却附带了一个糟糕的推论。这个说法足以获得点赞，但其含义却足以让对话变得更糟。“下一个词预测器”描述了许多LLM的训练目标和生成接口，但它并未完全描述训练后的模型学到了什么、能做什么，或者围绕这些模型构建的更大AI系统在连接到工具、记忆、检索、代码执行、agent循环和反馈机制时的行为。看在上帝的份上，别再这么说了。说它们**只是**下一个词预测器，是以一种完全错误的方式简化问题；它让人觉得他们已经解释了系统，而实际上他们只是命名了系统的一部分。/end rant

查看原文

吐槽：别再说什么LLM只是“下一个词预测器”了。

相似文章

大语言模型实际工作原理

大型语言模型是如何工作的（26分钟阅读）

从离散词元到连续状态：大型语言模型作为世界模型的特例及其超越之路

@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758

不要让LLM说话，直接探测它（8分钟阅读）

提交意见反馈