吐槽:别再说什么LLM只是“下一个词预测器”了。
摘要
对LLM“只是下一个词预测器”这一过于简单化的说法提出批判,认为大规模预测会诱导出有用的表示和能力,并且这种轻率的否定混淆了目标与学习系统。
没有什么比这句话更能让我看出某人对AI(及相关话题)了解之浅了。我明白人们在一个帖子下留个单句评论时想表达什么。对于许多常见的LLM,尤其是GPT风格的自回归模型,下一个词预测是预训练和生成的核心。最简单的场景:训练模型预测下一个词 > 一次生成一个词 > 将其封装在更大的系统中,包含提示、解码规则、工具、检索、记忆等。确实如此。但说LLM**只是**下一个词预测器,这种说法在技术上有依据,却极具误导性,且对不明真相的围观者有害。它混淆了**目标/接口**与**学习系统**。一个训练好的模型不仅仅是它的损失函数。说“它预测下一个词”就像说国际象棋引擎“只是选得分最高的走法”,或者说**音乐家“只是弹下一个音符”**。没错,但这是极其无力的论证。它跳过了我们真正关心的东西:学到了什么结构,形成了什么表示,训练后的网络似乎实现了什么计算,以及产生了什么能力。为了大规模地良好预测文本,模型会被激励去学习编码语法、句法、风格、语义关系、事实规律、代码模式、社会习俗、话语结构和类似推理的启发式方法的表示。其中一些是浅层模式匹配;一些是记忆;一些是脆弱的;一些是虚假相关,但也有一些似乎是有用的抽象。是的,不像人类那样完美,也不具备同样的具身性、持久记忆、能动性等,但也不像人们用“自动补全”所暗示的那样肤浅。当人们说“只是下一个词预测器”时,往往暗含一个更强的论断:
>“它预测下一个词,因此它什么都不理解。”
“它预测下一个词,因此它无法推理。”
“它预测下一个词,因此所有表面的智能都是假的。”
这些结论并不成立。预测可能需要建模。如果我让你预测下一步…
* 在一盘国际象棋中,最好的预测器可能需要表示棋盘、合法走法、威胁、计划和战略背景。
* 在一个证明中,最好的预测器可能需要跟踪逻辑。
* 在一行代码中,最好的预测器可能需要推断目标、约束、API行为和可能的实现。
预测并不能保证深度理解,但也不阻止理解。LLM是否“理解”部分取决于人们对理解的定义。如果指的是意识、生活经验、感受性、能动性、具身性或类人心理状态,那么我认为当前的LLM不具备这些,而且我们也没有充分证据表明它们有。但意识本身也并非一个已解决的问题,所以我会谨慎对待那种用“哈哈它预测token”就当尘埃落定的做法。这个论证不能只是“目标是预测,所以理解是不可能的。”但论证也不能是“目标是预测,所以理解是不可能的。”人们一直在忽略这个区别。LLM可能感觉像魔法,但它们不是魔法。我不认为我们有充分证据表明当前LLM有意识、有感觉或拥有生活经验:它们会产生幻觉,它们很脆弱,它们能产生类似推理的输出但无法可靠泛化,而且它们常常需要工具、检索、验证和人类监督。但这并不是人们以为的“绝杀”。人类也需要工具、笔记、计算器、例行程序、同行评审、代码审查、编辑、导师和制度性支撑。重点不在于人类是不需要支撑的心灵,而LLM因为需要支持就是假的;重点在于LLM有不同的……失败模式、接地方式、记忆、能动性和问责结构。而“只是下一个词预测”本身并不是对这些局限性的严肃分析。这是一个事实上可辩护的说法,意在嘲笑某些东西,却附带了一个糟糕的推论。这个说法足以获得点赞,但其含义却足以让对话变得更糟。“下一个词预测器”描述了许多LLM的训练目标和生成接口,但它并未完全描述训练后的模型学到了什么、能做什么,或者围绕这些模型构建的更大AI系统在连接到工具、记忆、检索、代码执行、agent循环和反馈机制时的行为。看在上帝的份上,别再这么说了。说它们**只是**下一个词预测器,是以一种完全错误的方式简化问题;它让人觉得他们已经解释了系统,而实际上他们只是命名了系统的一部分。/end rant
相似文章
并非所有Token都同等重要:通过强化学习中的Token重要性实现高效LLM推理
本文提出了一个强化学习框架,通过建模Token重要性来选择性地对不重要的Token进行惩罚,同时保留关键推理步骤,采用重要性感知奖励和动态长度奖励来减少冗余,在不牺牲准确性的前提下提高效率。
真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析
研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。
关于预测预训练大语言模型(LLM)的后训练潜力
本文介绍了 RuDE,这是一种通过利用响应鉴别力来预测预训练大语言模型(LLM)后训练潜力的框架,旨在解决 MMLU 等传统基准测试的局限性。
关于LLM“数学证明”声明的问题(15分钟阅读)
本文批判了媒体对LLM局限性数学证明的夸大报道,特别指出关于自我提升的条件性结论如何经常被曲解为普遍不可能性。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。