理解大型语言模型

arXiv cs.CL 论文

摘要

本章回顾了当前对大型语言模型的理解,讨论了它们的Transformer架构、类似人类认知的涌现能力,以及关于LLM是真正理解还是仅仅模拟理解的争论。

arXiv:2607.01006v1 公告类型:新 摘要:大型语言模型(LLM)代表了近年来人工智能和自然语言处理领域最重要的进展之一。然而,关于它们的机制、能力以及与人类认知的关系等许多紧迫问题仍然存在激烈争论。本章旨在通过讨论关于涌现能力及其在处理层内的机制实现的最新证据,概述我们目前对LLM的理解。我们首先简要概述Transformer架构,强调注意力机制如何使得在海量数据集上进行训练成为可能,从而使LLM能够作为通用模型而非专用模型运行。接下来,我们考察LLM的涌现能力,这些能力似乎与人类认知的某些方面相似,包括符号推理、心智理论和欺骗策略。多项研究提供了证据表明,LLM可以解决以前认为需要类人认知的任务。其他研究则揭示了有启发性的失败案例,阐明了人类认知与LLM认知之间的差异。除了这些发现,我们还回顾了可解释的人工智能方法,从神经元激活分析到电路追踪。在最后一部分,我们讨论了当前关于LLM真正理解什么与仅仅表面理解什么的争论。反对AI拟人化的主要论点指出LLM训练目标过于简单,声称LLM的行为更像是训练数据中的模式记忆,而非真正的认知。我们认为这一立场受到关于优化过程和认知能力的误解的引导,并主张对LLM认知进行更细致的讨论,既不忽视人类与LLM之间的差异,也不通过过于简单的还原论论点排除AI认知的可能性。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:39

# 理解大型语言模型 来源:https://arxiv.org/html/2607.01006 \\NewBibliographyString availableonline ###### 摘要 大型语言模型 \(LLMs\) 是近年来人工智能和自然语言处理领域最重大的进展之一。尽管如此,关于其机制、能力以及与人类认知关系的诸多紧迫问题仍存在高度争议。本章旨在通过讨论关于新兴能力及其在处理层内机械实现的最新证据,概述我们目前对LLM的理解。我们首先简要概述Transformer架构,强调注意力机制如何使大规模数据集训练成为可能,从而使LLM能够作为通用型而非专用模型发挥作用。接着,我们考察了看似与人类认知某些方面相似的LLM涌现能力,包括符号推理、心理理论和欺骗策略。多项研究证据表明,LLM能够解决先前被认为需要类人认知的任务。其他研究则揭示了富有洞察力的失败案例,阐明了人类与LLM认知之间的差异。在这些发现之外,我们回顾了从神经元激活分析到电路追踪的可解释人工智能方法。先前的研究表明,一些人工神经元会针对特定概念激活,且LLM实现了支持多步符号推理的电路。在最后一部分,我们讨论了当前关于LLM真正理解什么与仅仅表面理解什么的争论。反对人工智能拟人化的主要论点指向LLM训练目标的简单性,声称LLM的行为更适合被解释为对训练数据的模式记忆,而非真正的认知。我们认为,这种观点受到关于优化过程和认知能力误解的引导,并主张对LLM认知进行更细致的讨论——既不否认人类与LLM之间的差异,也不因过于简化的还原论论证而排除人工智能认知的可能性。 关键词:大型语言模型、可解释人工智能、机器认知 ## 1 引言 过去两年中,大型语言模型 \(LLMs\) 在全球公众、商业和科学领域的使用大幅增加。LLM已经影响到我们日常生活的许多方面:学生用它们辅助完成作业[26 (https://arxiv.org/html/2607.01006#bib.bib9)],企业用它们撰写新闻稿和职位描述[43 (https://arxiv.org/html/2607.01006#bib.bib8)],求职者用它们编写简历[3 (https://arxiv.org/html/2607.01006#bib.bib10)]。2023年,30%的科学家声称使用LLM帮助撰写手稿[87 (https://arxiv.org/html/2607.01006#bib.bib12)],而词汇分析表明,2024年发表的科学摘要中有10%经过了LLM处理[39 (https://arxiv.org/html/2607.01006#bib.bib11)]。2024年,人类与LLM的交互变得如此普遍,以至于LLM偏好的词汇已经渗透到人类口语交流中。[94 (https://arxiv.org/html/2607.01006#bib.bib40)]发现,在ChatGPT[59 (https://arxiv.org/html/2607.01006#bib.bib41)]发布后,播客和学术演讲中GPT偏好的词汇(如“delve”)出现频率增加。在软件工程领域,基于LLM的编码辅助已无处不在,2024年有63%的专业开发者使用AI工具[79 (https://arxiv.org/html/2607.01006#bib.bib13)]。显然,LLM目前无处不在。 这场突如其来的AI革命为何发生?LLM是否拥有早期AI系统所缺乏的、从根本上改变人机交互的能力?AI发展的进展通常通过基准测试来追踪——即用标准化问题测试AI能力的量化测试,每个问题都有一个称为“真实答案”的唯一正确答案。LLM在许多此类基准测试上的强劲表现表明能力有了明显跃升。SQuAD[69 (https://arxiv.org/html/2607.01006#bib.bib52)]和GLUE[90 (https://arxiv.org/html/2607.01006#bib.bib53)]基准测试旨在测试AI的问答和语言理解能力。早在BERT[20 (https://arxiv.org/html/2607.01006#bib.bib58)](现代LLM的早期前身)时代,这些基准测试的饱和速度就远超预期,模型准确率接近100%。这促使了难度逐步提高的基准测试的快速发展,如SQuAD 2.0[68 (https://arxiv.org/html/2607.01006#bib.bib59)]、SuperGLUE[89 (https://arxiv.org/html/2607.01006#bib.bib54)]和CoQA[70 (https://arxiv.org/html/2607.01006#bib.bib55)],而这些基准测试本身很快又被更新的LLM所饱和。最近,LLM超越了典型的语言基准测试生态系统,在2025年国际数学奥林匹克竞赛[47 (https://arxiv.org/html/2607.01006#bib.bib60)](一项面向高中生的国际数学竞赛)中表现出金牌级别的水平,令数学界惊讶,参赛者需要解答数论、组合数学、代数和几何中的高级问题。 基准测试结果表明,LLM代表了AI解决可自动验证的文本问题能力的一个阶跃变化。然而,这种表现揭示了何种底层认知本质,仍存在高度争议。在本章中,我们将介绍基于Transformer的LLM,考察涌现的认知能力,并综述可解释性研究。最后,我们将探讨将“真正理解”归于LLM是否合理。 ## 2 大型语言模型的构建方式 LLM体现了自然语言处理 \(NLP\) 的统计革命与机器学习中的联结主义范式的当前顶峰:数十年的NLP研究表明,随着计算能力的增长,统计和数据驱动的方法往往优于利用人类语言能力的专家设计方法[82 (https://arxiv.org/html/2607.01006#bib.bib17)]。与此同时,机器学习领域经历了从偏爱低参数模型(受奥卡姆剃刀原则指导)到接受具有数百万可训练参数的深度联结主义架构的范式转变[51 (https://arxiv.org/html/2607.01006#bib.bib25)]。到2015年,隐马尔可夫模型和N-gram语言模型等经典统计方法在机器翻译和文本分类等任务上已被深度学习方法超越[81 (https://arxiv.org/html/2607.01006#bib.bib26)]。深度神经网络被证明比早期方法更灵活、泛化能力更强,前提是有足够的算力和数据。然而,与计算机视觉[31 (https://arxiv.org/html/2607.01006#bib.bib20)]等其他机器学习领域的同期改进相比,性能提升并不那么显著。 深度学习NLP模型的一个核心挑战是解析单词和句子在其嵌入语境中的含义。当时的主流方法——循环神经网络 \(RNNs\)——通过引入一个“隐藏状态向量”来应对这一挑战,该向量在文本处理过程中追踪相关上下文。这要求RNN顺序处理文本,每处理一个单词就更新隐藏状态向量,然后再处理下一个单词。 Transformer架构[88 (https://arxiv.org/html/2607.01006#bib.bib21)]支撑着所有现代LLM,它解决了RNN的两个根本限制。首先,RNN难以处理长距离依赖,因为将变长上下文信息压缩到固定大小的隐藏状态会导致信息丢失。在解析一部小说时,RNN不可避免地必须压缩或覆盖早期章节的信息以融入新输入,导致无法建立相隔较远的细节之间的联系。其次,RNN固有的顺序结构阻碍了训练期间的高效并行化。 Transformer架构(图1 (https://arxiv.org/html/2607.01006#S2.F1))通过在前向传播中一次性处理整个输入序列,消除了对循环隐藏状态的需求。Transformer将输入文档处理为*标记*序列,这些标记是字符序列,可以表示单词、标点或常见子串,但没有明确含义。例如,一个常见的字节对编码分词器[75 (https://arxiv.org/html/2607.01006#bib.bib109)]会将单词“unhappiness”拆分为标记“un”、“h”和“appiness”,并将它们转换为关联的数字标识符[359,71,66291] [359,71,66291]。在Transformer模型的*嵌入*步骤中,这些标记通过一个线性嵌入层映射到连续向量表示。这些向量可以被理解为编码了标记的潜在含义,并在训练阶段学习得到。它们在一系列注意力块(图1 (https://arxiv.org/html/2607.01006#S2.F1)中的灰色区域)中处理,这些块将前面文本段的上下文信息整合到每个标记的向量中。例如,单词“bat”最初可能包含与运动和动物相关的特征,但在注意力处理后,如果上下文前面出现了“baseball”,它可能会丢弃与动物相关的特征。 参见图1说明 图1:Transformer模型将输入文档处理为嵌入到连续向量空间中的标记序列。在一系列N个注意力块(灰色阴影)中,标记嵌入向量通过可训练的注意力和前馈层进行处理。最后一步,线性层将嵌入向量映射到词汇表大小,softmax函数产生下一个标记的输出概率分布。© Yannik Keller, 2025,改编自[88 (https://arxiv.org/html/2607.01006#bib.bib21)]。 这种新设计允许一次性训练整个文档,使模型训练能够高效并行化。因此,数据集整理方法和训练目标也发生了变化。研究人员和工程师不再精心整理高质量、带注释的训练数据集,而是转向从互联网获取越来越大的数据集。同时,训练目标函数也发生了变化。以前的深度学习模型通常针对一个特定任务(如情感分析或机器翻译)进行训练,使用带注释的数据集。为了利用大量未标注数据,Transformer通常采用无监督语言建模目标进行训练。这个简单的目标函数训练模型根据前面标记的上下文预测序列中的下一个标记。令人惊讶的是,结果表明,使用该目标在大量数据上训练的模型可以泛化解决广泛的任务[9 (https://arxiv.org/html/2607.01006#bib.bib22)]。正是LLM的这种泛化能力彻底改变了AI和NLP领域,从单任务专家系统转向越来越强大的通用型基于语言的任务求解器。 LLM能力的最新快速发展不仅源于更大的LLM和数据集,还得益于新的*微调*方法的开发,这些方法进一步训练LLM,使其更有用、更智能、更符合人类利益。在*指令微调*过程中,LLM在特殊格式的数据集上进行微调,以遵循用户给出的指令(即*提示*)。在*基于人类反馈的强化学习*[17 (https://arxiv.org/html/2607.01006#bib.bib23),61 (https://arxiv.org/html/2607.01006#bib.bib24)]中,人类评分员根据模型输出与期望对齐行为的匹配程度对输出进行标记。这些标记随后用于微调过程,优化模型更一致地生成此类优先响应。类似地,*推理型LLM*会进行微调,使其成为更熟练的问题求解器,在做出响应之前生成一串内部标记来“推理”当前任务[28 (https://arxiv.org/html/2607.01006#bib.bib112)]。这些“推理”标记旨在模拟*言语化思维链*,并已被证明能提升LLM在涉及逻辑和关系推理的各种任务上的表现[78 (https://arxiv.org/html/2607.01006#bib.bib113)]。 自回归LLM(如上述类型)是通用聊天和问题求解的主导架构。然而,像BERT[20 (https://arxiv.org/html/2607.01006#bib.bib58)]或T5[67 (https://arxiv.org/html/2607.01006#bib.bib110)]这样先于现代LLM的编码器-解码器架构仍被广泛使用。尽管大多数当代LLM都展现出一定程度的 multilingual 能力,但编码器-解码器模型在机器翻译中仍更受青睐,因为它们擅长将一个序列映射到另一个序列,且具有强对齐性。最后,当今许多最强大的自回归LLM是多模态的,这意味着它们不仅处理文本,还能通过将这些不同模态转化为标记来处理和输出图像、音频甚至视频。 ## 3 理解LLM认知 在例如[49 (https://arxiv.org/html/2607.01006#bib.bib120),83 (https://arxiv.org/html/2607.01006#bib.bib119),16 (https://arxiv.org/html/2607.01006#bib.bib115),65 (https://arxiv.org/html/2607.01006#bib.bib116)]等有影响力工作的推动下,认知科学学科在20世纪下半叶兴起,其目标是将心智理解为一个表征、操作和转换信息的信息处理系统。受早期数字计算机的启发,早期认知科学家提出了符号化的计算认知模型,用于解释人类如何能够解决问题[54 (https://arxiv.org/html/2607.01006#bib.bib61)]。凭借他们的方法,他们同时批评了行为主义(认为其不充分)和神经科学(认为其过早且无帮助),因为我们还不了解大脑中神经元实际实现了哪些算法。大卫·马尔曾著名地提出,要充分理解像人脑这样的信息处理系统,需要从三个层面进行分析[48 (https://arxiv.org/html/2607.01006#bib.bib62)]。第一,计算层面,旨在找出主体在解决什么问题以及为什么解决这个特定问题。第二,算法层面,描述信息处理系统表征和解决问题的过程。最后,实现层面,研究执行计算的物理基质,例如人类神经元。 LLM与人脑不同。我们非常了解LLM运行的基质。即使是现代计算机硬件,本质上也是基于许多顺序或并行运行的逻辑门,每个逻辑门的行为都遵循易于理解的规则。类似地,将输入转换为输出文本的计算机算法由Transformer架构的软件所给出的一系列矩阵乘法明确定义。最后,我们倾向于认为我们也应该知道LLM正在解决的问题,因为我们将其指定为奖励或损失函数给出的学习目标。 尽管LLM看似直接,但似乎有各种涌现的LLM能力

相似文章

大型语言模型是否适用于图计算?进展与展望

arXiv cs.CL

本综述回顾了大型语言模型在图计算中的应用,将其分为两种范式:LLM作为执行器和LLM作为规划器。研究发现,LLM在简单任务上表现良好,但在大规模精确计算方面不可靠,并提出了未来方向。

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。

大型语言模型有多像人类?一个关注语域的语言评估框架

arXiv cs.CL

本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。