论词汇性在大语言模型中的持续影响
摘要
本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。
arXiv:2606.02750v1 公告类型:新
摘要:从大型语言模型(LLM)中提取的表示在许多下游应用中发挥着重要作用。然而,这些表示的结构常常受到词汇重叠而非语义内容的影响。我们对于这种词汇影响与语义内容之间的关系及其对下游任务的影响理解仍然有限。在本工作中,我们研究表示以量化词汇重叠相对于语义内容的影响。我们考虑了多种对抗性语义压力测试,并进一步将我们的发现与信息论视角联系起来。我们发现词汇影响跨越模型的深度,在架构、训练范式和目标函数上保持一致,包括为语义相似性训练的模型。此外,我们观察到在中层区域,词汇和语义信号同时退化,表明存在一个过渡阶段,其中表示在表面形式和意义方面都较差。我们进一步通过以摘要和模型编辑作为案例研究,展示了词汇影响对LLM下游使用的影响。
查看缓存全文
缓存时间: 2026/06/03 09:35
# 关于大型语言模型中词汇性的持久影响
来源:https://arxiv.org/html/2606.02750
Hammad Rizwan
达尔豪斯大学,哈利法克斯,新斯科舍省
& Muhammad Umair Haider
肯塔基大学,列克星敦,肯塔基州
& Nishant Subramani
卡内基梅隆大学,匹兹堡,宾夕法尼亚州
& Mona T. Diab
卡内基梅隆大学,匹兹堡,宾夕法尼亚州
& A.B. Siddique
肯塔基大学,列克星敦,肯塔基州
& Hassan Sajjad
达尔豪斯大学,哈利法克斯,新斯科舍省
###### 摘要
从大型语言模型(LLMs)中提取的表示在许多下游应用中扮演着重要角色。然而,这些表示的结构常常受到词汇重叠而非语义内容的影响。我们对这种词汇影响与语义内容之间的关系及其对下游任务的影响的理解仍然有限。在这项工作中,我们研究了表示,以量化词汇重叠相对于语义内容的影响。我们考虑了多种对抗性语义压力测试,并进一步将我们的发现与信息论视角联系起来。我们发现词汇影响贯穿模型深度,在不同架构、训练范式和目标函数(包括为语义相似性训练的模型)中一致存在。此外,我们观察到一个中深度区域,其中词汇和语义信号同时下降,表明存在一个过渡状态,表示在表面形式和意义上都较差。我们进一步通过以摘要和模型编辑作为案例研究,展示了词汇影响对LLMs下游使用的影响。
## 1 引言
自然语言处理(NLP)随着LLMs的出现取得了快速进展,这些模型现在在广泛的基准测试和下游任务中表现出色。除了生成文本,这些模型越来越多地被用作通用嵌入引擎,提供支撑检索、文本相似性、聚类和评估流程的向量表示。对LLM嵌入的广泛依赖隐含地假设,随着我们深入模型深度,表示逐渐远离局部词汇结构,并收敛到越来越抽象的序列级语义(Jawahar等人,2019 (https://arxiv.org/html/2606.02750#bib.bib23);Hewitt and Liang,2019 (https://arxiv.org/html/2606.02750#bib.bib25);Haider等人,2024 (https://arxiv.org/html/2606.02750#bib.bib24))。在实践中,这一假设是脆弱的,因为它并不意味词汇线索已被消除,因为只要输入共享标记,即使它们的含义不同,表示仍然可能高度相似(Dumpala等人,2024 (https://arxiv.org/html/2606.02750#bib.bib9);Rizwan等人,2025 (https://arxiv.org/html/2606.02750#bib.bib10))。当词汇重叠影响嵌入几何时,相似性估计会下降,使得基于含义而非措辞检索或分类文档变得更加困难,并削弱依赖含义驱动表示的系统。因此,我们询问表示几何如何沿着词汇和语义信息的轴线演化;训练范式(包括预训练目标、指令微调和对比学习)如何塑造这些几何结构;以及词汇影响如何传播到LLMs的下游使用。
我们将模型的每一层视为一个候选嵌入空间,并将我们的研究组织为四个部分。
首先,为了量化词汇影响,我们使用了一个三元组语义等价压力测试,包括一个锚点、一个保持意义的释义和一个与锚点共享大量词汇重叠的意义改变干扰项。这种构造隔离了由表面形式相似性驱动的语义相似性失败,并定位了表示最常将词汇重叠与语义等价混淆的深度位置。
其次,为了从词汇和语义信号的角度量化这些失败,我们将压力测试与两个逐层测量配对:词汇可解码性和语义保真度。词汇可解码性通过训练线性令牌身份探针量化,测量每个层上表面形式在多大程度上可线性恢复。我们假设强令牌身份对应于下游方法可以轻松利用的显著词汇信号,无论这些方法是依赖相似性几何还是学习额外的预测器。我们根据表示在多样化嵌入任务上的表现来量化语义保真度。这些诊断共同区分了表示相似性失败的竞争性解释:词汇主导、弱语义组织,以及词汇和语义信号同时较低的过渡状态。
第三,由于逐层的词汇和语义几何本身并不能表征信息处理动态,我们通过跨层的输入(提示)熵将这些调查与这些动态联系起来。我们测试信息压缩和解压缩转移是否与词汇和语义结构的逐层变化一致。
第四,我们展示了词汇影响在实际LLM应用中的后果,重点关注抽象摘要评估和事实模型编辑。我们的调查得出了几个核心见解:词汇影响在深度上持续存在(§3 (https://arxiv.org/html/2606.02750#S3))。跨多个模型的对抗性压力测试表明,由标记重叠驱动的相似性错误贯穿模型深度。尽管在更深层有所减弱,但该效应既未完全消除,也不仅限于浅层表示。适应范式改善了嵌入,但并未消除词汇影响(§3 (https://arxiv.org/html/2606.02750#S3))。指令微调和度量学习提高了整体嵌入质量,但我们的压力测试显示,度量学习在词汇重叠对抗下仍然失败。词汇相似但语义不匹配的对继续获得膨胀的相似性分数,表明嵌入模型的主导训练范式减少了但未消除词汇偏差。词汇可解码性在深度上非单调(§4.1 (https://arxiv.org/html/2606.02750#S4.SS1))。从令牌表示中解码确切词汇身份的能力在层之间波动,而不是单调下降。这与Cheng等人 (2025 (https://arxiv.org/html/2606.02750#bib.bib71)) 的发现一致,表明深度并未产生清晰的词汇到语义的转换(Tenney等人,2019 (https://arxiv.org/html/2606.02750#bib.bib51);Jawahar等人,2019 (https://arxiv.org/html/2606.02750#bib.bib23);Li and Subramani,2025 (https://arxiv.org/html/2606.02750#bib.bib65))。一个中深度谷底,词汇和语义信号同时减弱(§4 (https://arxiv.org/html/2606.02750#S4),§5 (https://arxiv.org/html/2606.02750#S5))。跨模型系列,中间层形成一个谷底状区域,其中令牌身份最不可恢复,语义性能停滞或下降,这既体现在原始嵌入几何中,也体现在线性探查的语义评估中。这个谷底似乎与跨层提示信息中的压缩-重新扩展点对齐;在完整注意力下,即使表示熵随深度大致恒定,类似的谷底也会出现,表明该效应不仅仅是熵的转移。实际影响(§6 (https://arxiv.org/html/2606.02750#S6))。在基于嵌入的流程中,词汇重叠可能使相似性信号失准,降低性能。在摘要评估中,常见的基于参考的指标系统性地奖励参考措辞,偏向表面重叠而非语义保持。在权重空间模型编辑中,更新沿着表面形式相似性泛化,为标记重叠的干扰项产生相关转移,损害编辑局部性。
## 2 实验设置与预备知识
我们使用一组通用的数据集和模型系列,以确保跨实验的一致性。
数据集。为了探查词汇影响,我们使用了两个对抗性基准:CounterFact(Meng等人,2022 (https://arxiv.org/html/2606.02750#bib.bib12))和SugarCrepe++ (SCPP)(Dumpala等人,2024 (https://arxiv.org/html/2606.02750#bib.bib9))。相对于主要扰动实体的CounterFact,SCPP为词汇影响测试提供了更具针对性的基准,因为它引入了属性和关系的系统性变化。我们还额外使用CounterFact进行模型编辑。数据集细节和参考样本详见附录D.1 (https://arxiv.org/html/2606.02750#A4.SS1)。为了测量词汇可解码性,我们在WikiText(Merity等人,2017 (https://arxiv.org/html/2606.02750#bib.bib11))上训练了令牌身份探针;为了评估语义保真度,我们使用了MTEB基准(Muennighoff等人,2023 (https://arxiv.org/html/2606.02750#bib.bib13))。
模型。我们考虑了三种训练范式:预训练、指令微调和度量学习训练的嵌入模型,涵盖多个模型系列¹¹。¹¹Llama 3.2(Grattafiori等人,2024 (https://arxiv.org/html/2606.02750#bib.bib47))和Gemma 3(Team等人,2025 (https://arxiv.org/html/2606.02750#bib.bib46))的预训练和指令微调版本,以及嵌入模型包括Qwen-3(Zhang等人,2025 (https://arxiv.org/html/2606.02750#bib.bib45))(Qwen3-Embedding-8B)和KaLM(Zhao等人,2025 (https://arxiv.org/html/2606.02750#bib.bib44))(KaLM-Embedding-Gemma3-12B-2511)。注意:KaLM修改了Gemma3架构以使用完整注意力。
## 3 测量词汇影响
在学习到的表示语境中,我们将词汇影响定义为一种语义失败情况,其中锚点提示更接近词汇重叠的干扰项,而不是其保持意义的释义,从而违反了预期的三元组排序。我们在三元组数据集 D = {(a, p, d)} 上测量这种效应,其中 a 是锚点,p 是保持意义的释义,d 是词汇干扰项。数据集的使用和细节详见附录D.2 (https://arxiv.org/html/2606.02750#A4.SS2)。
对于给定模型 M 和由标记 t ∈ {1, ..., T_x} 组成的输入 x,设 H_ℓ^M(x) ∈ R^{T_x × d} 为层 ℓ ∈ L 上的标记级隐藏状态矩阵,其中第 t 行 H_ℓ^M(x)_t ∈ R^d 对应标记位置 t。设 h_ℓ^M(x) ∈ R^d 为相应的句子级嵌入,通过两种标准选择之一获得:均值池化和最后一个标记。
h_ℓ^{M, mean}(x) = (1/T_x) Σ_{t=1}^{T_x} H_ℓ^M(x)_t,
h_ℓ^{M, last}(x) = H_ℓ^M(x)_{T_x}
然后我们对 h̃_ℓ^M(x) = h_ℓ^M(x) / ‖h_ℓ^M(x)‖_2 进行 ℓ_2 归一化,并测量欧几里得距离:
d_ℓ^M(x, y) = ‖h̃_ℓ^M(x) - h̃_ℓ^M(y)‖_2。
对于 ℓ_2 归一化向量,这等价于(在单调变换下)余弦相似性,因为 ‖ũ - ṽ‖_2^2 = 2 - 2 ũ^T ṽ。
为了量化词汇影响,我们测量了三元组成功率。当表示由词汇重叠驱动时,模型更可能将释义与词汇重叠的干扰项混淆,从而产生较低的成功率。对于每个三元组 (a, p, d),当锚点和释义比任何涉及干扰项的对更接近时,视为成功。我们报告逐层成功率:
SR_ℓ^M = (1/|D|) Σ_{(a, p, d) ∈ D} I[d_ℓ^M(a, p) < min(d_ℓ^M(a, d), d_ℓ^M(p, d))]
其中 I[·] 是指示函数。
## 4 词汇与语义信号
精确的词级信息在多大程度上保留在 LLM 表示中?这种保留如何随深度变化?为了回答这些问题,我们训练了线性探针,从令牌级隐藏状态预测准确的标记身份。我们称这种测量为词汇可解码性。
更正式地,给定来自 WikiText 的令牌序列 T = {t_1, ..., t_n},设 H_ℓ^M(T) ∈ R^{n × d} 表示来自层 ℓ 的隐藏状态矩阵。我们在隐藏状态上训练正则化线性分类器 f_ℓ,以预测相应的标记身份 t_i:
f_ℓ(h_i) = argmax_{j ∈ Vocabulary} (W_ℓ h_i + b_ℓ)_j
其中 W_ℓ ∈ R^{|V| × d} 且 b_ℓ ∈ R^{|V|} 是学习到的参数。由于词汇量较大,我们使用带有恒等式正则化的交叉熵损失进行优化:
L = - Σ_i log[f_ℓ(H_ℓ^M(T)_i] + λ ‖W_ℓ‖_F^2
其中 λ > 0 是恒等式正则化系数。我们使用 AdamW(Loshchilov and Hutter,2017 (https://arxiv.org/html/2606.02750#bib.bib68))优化探针参数,学习率 10^{-3},权重衰减 10^{-4},恒等式正则化 λ = 10^{-6},并裁剪梯度范数以稳定优化。
## 附录 H 语义探针
基于图1 (https://arxiv.org/html/2606.02750#S3.F1) 中的发现,我们对预训练和指令微调模型使用平均标记(均值池化),对嵌入模型使用最后一个标记表示。我们在来自大规模文本嵌入基准(MTEB)的一套英语任务上进行评估,并在本地缓存每个任务以确保确定性重跑。我们对少数大规模情况执行子采样以保持运行时间可控。对于 MedRxivClusteringS2S.v2(37,500 个测试实例),我们使用固定种子无放回均匀采样 10,000 个测试点,并缓存产生的子集。对于极大重排数据(如 MindSmallReranking),我们将缓存数据上限设为 10,000 个查询和 200,000 个语料文档;然后过滤 relevant_docs 和 top_ranked,移除任何引用已删除查询或文档 ID 的条目,确保内部一致性。使用的数据集及其分类见表4 (https://arxiv.org/html/2606.02750#A8.T4)。
### H.1 结果 MTEB
图8 (https://arxiv.org/html/2606.02750#A8.F8) 展示了 STS、成对分类和聚类的结果。成对分类和 STS 遵循与正文中讨论的相同几何模式,而聚类则与该模式不同。我们假设这个问题与数据以及该任务评估的执行方式有关;我们将其留作未来工作。
### H.2 词义消歧
为了验证中深度退化在标记级语义任务上的表现,我们在 SemCor 语料库上评估了词义消歧(WSD)。我们使用标记级义项标签,并将预测空间限制为训练集中最频繁的 1,000 个义项。对于每一层,我们训练一个线性探针并评估其性能。图7 (https://arxiv.org/html/2606.02750#A8.F7) 显示了类似的几何模式:性能在中间深度下降,并在网络后半部分部分恢复。然而,后面的层并不优于前面的层。这是预期的,因为较高层的标记表示往往越来越与序列级语义对齐,而不是保留细粒度的标记特定信息。
参考图注
图7:Gemma-12B-IT 和 Gemma-12B-PT 模型上 WSD 的结果。
表4:MTEB 任务类别和使用的数据集。
参考图注
参考图注
参考图注
参考图注
图8:模型在 MTEB 任务上的性能。sts (a),成对分类 (b),聚类 (c)。
## 附录 I 输入/提示熵
提取自 Skea 等人 (2025 (https://arxiv.org/html/2606.02750#bib.bib27))。对于具有 T_p 个标记的输入(提示)p,设 Z_ℓ(p) ∈ R^{T_p × d} 为层 ℓ 的标记嵌入矩阵(行对应标记位置)。定义 Gram 矩阵 K_ℓ(p) = Z_ℓ(p) Z_ℓ(p)^T,
K̃_ℓ(p) = K_ℓ(p) / tr(K_ℓ(p))。
设 {μ_i}_{i=1}^{T_p} 为 K̃_ℓ(p) 的特征值(因此 Σ_i μ_i = 1)。输入(提示)熵是基于矩阵的 Rényi 熵:
H_in(ℓ)(p) = (1/(1-α)) log(Σ_{i=1}^{T_p} μ_i^α),α > 0,α ≠ 1,
H_...相似文章
语言模型难以实现概念整合
本文研究了大型语言模型中的 compartmentalization(概念隔离)现象,即模型未能跨同一概念的不同表示共享统计强度,导致样本效率和模型容量降低。作者在多语言和多格式场景中验证了这一现象,并表明合成平行数据无法完全解决此问题。
超越余弦相似度:重新思考大语言模型中的层相关性
本文证明,余弦相似度作为评估大语言模型中层重要性的指标效果不佳,并提出使用层移除后实际准确率下降作为更稳健的度量标准。
大型语言模型有多像人类?一个关注语域的语言评估框架
本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。
一层解释所有:理解大型语言模型中的大规模激活现象
本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。
基于大模型的稠密检索器鲁棒性研究:泛化性与稳定性系统分析
系统研究表明,基于大模型的稠密检索器在拼写错误和投毒攻击上优于 BERT 基线,但仍易受语义扰动影响,其嵌入几何形态可预测鲁棒性。