大型语言模型中的涌现式重分词对称性:现象学与应用
摘要
本文发现,大型语言模型在重分词下部分表现出涌现式对称性——即在不改变字节的情况下,将提示的标准分词替换为另一种有效的分词方式。作者利用这一现象来探究组合理解能力,并提出将重分词作为一种新颖的推理时采样策略,能够恢复传统温度采样无法找到的解。
arXiv:2606.15521v1 Announce Type: new
Abstract: 分词引入了表示冗余:在固定的分词词表下,每个字节串都有多种有效的分词编码(或分词方式),它们解码后得到相同的表面字符串。然而,给定一个提示,大多数语言模型分词器会通过返回标准分词来打破这种表示对称性。仅对标准分词进行训练会影响推理行为,而且几乎没有理由期望模型在下游任务上尊重分词对称性。我们发现这种对称性在训练过程中部分涌现。在此,我们通过实验测试分词组合理解、表示多样性和任务导向的基准性能来探究这种涌现式对称性。我们主要使用 \textbf{重分词}——即在完全保留字节的情况下,将提示的标准分词替换为另一种分词方式。与其他提示扰动相比,重分词异常干净,因为它隔离了分词效果,而不改变语法、语义或表面形式。我们使用重分词来研究在预训练和后训练中对语义相同的输入表示的敏感性和鲁棒性。此外,这种部分重分词对称性暗示了一个不同的推理时采样轴。温度采样利用模型的下一个词元概率分布生成多样化的输出,而重分词则通过语义等效的输入表示从模型的内部计算中生成多样性。我们发现,虽然这种重分词采样策略可能会损害简单问题的性能,但它也能恢复传统采样无法找到的解。总体而言,我们的工作将重分词作为一种简单而强大的大型语言模型探针,揭示了组合理解和提示敏感性,并提供了一种新颖的采样策略。
查看缓存全文
缓存时间: 2026/06/16 11:49
# 大语言模型中涌现的重标记化对称性:现象学与应用
来源:https://arxiv.org/html/2606.15521
Kanishk Jain\* Matthew Day Tankut Can\*
物理系,埃默里大学,亚特兰大,GA 30322
\*通讯作者:\{kanishk.jain,tcan\}@emory.edu
###### 摘要
标记化引入了表征冗余:在固定的词元词汇表下,每个字节串都存在许多有效的词元编码(或称分割),它们解码后得到相同的表面字符串。然而,给定一个提示,大多数语言模型的标记器通过返回一个规范分割来打破这种表征对称性。仅在规范分割上训练应该会影响模型的推理行为,并且几乎没有理由期望模型在下游任务中尊重分割对称性。尽管如此,我们发现这种对称性在训练过程中部分涌现。在这里,我们通过一系列实验来探究这种涌现的对称性,这些实验测试了词元组合理解、表征多样性和面向任务的基准性能。我们主要使用**重标记化**——将提示的规范标记化替换为另一种有效的分割,同时精确保留其字节。相对于其他提示扰动,重标记化异常简洁,因为它隔离了分割效果而不改变语法、语义或表面形式。我们利用重标记化来研究预训练和后训练阶段对语义相同输入表征的敏感性和鲁棒性。此外,这种部分重标记化对称性暗示了一个不同的推理时采样轴。虽然温度采样通过使用模型的下一个词元概率分布从模型中生成多样化的输出,但重标记化通过语义等价的输入表征从模型的内部计算中生成多样性。我们发现,虽然这种重标记化采样策略在简单问题上可能会损害性能,但它也能恢复传统采样无法找到的解决方案。总体而言,我们的工作将重标记化呈现为一种简单而强大的大语言模型探针,揭示了组合理解和提示敏感性,并提供了一种新颖的采样策略。
## 1 引言
标记化通常被认为是大语言模型(LLM)脆弱性的一个来源:将多个字符分组到单个词元中会模糊字符结构,并可能在拼写敏感或字符级任务上产生失败(Singh 和 Strouse, 2024 (https://arxiv.org/html/2606.15521#bib.bib48);Edman 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib12);Cosma 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib10);Chai 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib6))。通常用来解释这些现象的朴素观点是,从词元序列中学习并不一定能产生对词元构成结构的完整理解。但这种观点是不完整的,因为最近的研究表明,LLM 通常可以解释同一字符串的替代分割,并且可能在内部从子词序列中恢复整词表征(Zheng 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib58);Kaplan 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib23)),这表明一种跨词元边界的涌现式组合理解形式。尽管如此,不同分割之间仍然存在残余差异,影响计算和性能(Geh 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib16))。使用固定词汇表,模型的**规范标记器**通过动态规划或贪心解码算法,仅返回给定字节串的一种有效编码。然而,给定一个**固定的词元词汇表**,可以创建许多**替代分割**,每个分割由不同的词元序列表示,这些序列解码后得到相同的表面字符串(图2 (https://arxiv.org/html/2606.15521#S3.F2)B)。我们将此类非规范的分割称为**重标记化**。例如,词元 `probable` 可以表示为双词元序列 `prob` + `able`,如果词元 `prob` 和 `able` 存在于模型的现有词汇表中。在训练期间使用规范标记器限制了 LLM 学习此类词元组合的能力。这种对子词元结构的忽视在过去曾使尖端模型陷入尴尬境地,这些模型可以执行复杂的数学和编码任务,但似乎无法统计一个单词中的字母数量(Cosma 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib10);Chai 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib6))。如果对规范分割的训练根本不产生不变性,那么非规范分割就只会破坏提示。如果不变性是精确的,那么所有等价的分割都会引发相同的计算,重标记化在行为上将变得微不足道。经验上有趣的是中间状态:训练后的模型可能表现出近似的**分割对称性**,意味着它们仍然能够理解非规范分割(Kaushal 和 Mahowald, 2022 (https://arxiv.org/html/2606.15521#bib.bib24);Itzhak 和 Levy, 2022 (https://arxiv.org/html/2606.15521#bib.bib22);Edman 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib12)),同时伴有残余的**分割敏感性**,意味着同一提示的替代分割会产生不同的内部状态和输出(Zheng 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib58);Cosma 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib10);Edman 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib12))。为了探究这种对称性-敏感性权衡,我们使用重标记化作为一种受控的推理时干预。给定固定词汇表和字节级提示 `s`,令 `E^0(s)` 为规范词元编码,`E^μ(s)` 为同一词汇表下 `s` 的任何其他有效分割。重标记化从不改变提示字节,不引入新词元,也不定义新任务。它仅改变同一字符串如何被分解为**现有**词元词汇表项。我们在整篇论文中以两种方式使用这种扰动。首先,我们将其用于机制研究,以探究语义相同输入下的隐藏状态变化。其次,我们通过**重标记化采样**将其用于行为研究,该策略采样分割 `{E^μ(s)}_μ=1^k`,从每个分割进行贪心解码,并用 `pass@retok(k)` 总结所得的成功曲线,这是 `pass@k` 的类似物,其中多样性来源于输入表征而非输出随机性。这种设置有意比通用的提示扰动更窄。释义、同义词替换、重新表述、掩码和重新格式化会改变表面字符串,因此将语义与措辞鲁棒性混为一谈(Liu 等人, 2023 (https://arxiv.org/html/2606.15521#bib.bib29);Qiang 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib39);Bsharat 和 Shen, 2025 (https://arxiv.org/html/2606.15521#bib.bib5);Dang 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib11))。相比之下,重标记化仅改变固定字节串的词元级表征。这使其成为一种特别干净的探针,用于研究标记化模型是否以分割不变的方式处理等价输入,以及这种不变性在何处失效。在 HumanEval (Chen 等人, 2021 (https://arxiv.org/html/2606.15521#bib.bib7))、GSM8K (Cobbe 等人, 2021 (https://arxiv.org/html/2606.15521#bib.bib9))、GSM8K Python (Chowdhery 等人, 2023 (https://arxiv.org/html/2606.15521#bib.bib8)) 和 MMLU (Hendrycks 等人, 2021 (https://arxiv.org/html/2606.15521#bib.bib20)) 基准测试中,我们发现等价分割通常能保持任务身份,并在输出中产生非平凡的多样性。此外,在 OLMo-2 的预训练和后训练阶段,我们发现字节级理解(分割对称性的必要条件)是逐步学习得到的,而不是凭空存在的。我们的方法与先前在训练期间使用随机标记化的方法不同,后者通过子词正则化在训练时暴露多种分割来鼓励鲁棒性(Kudo, 2018 (https://arxiv.org/html/2606.15521#bib.bib25);Provilkov 等人, 2020 (https://arxiv.org/html/2606.15521#bib.bib38))。我们主要关注理解那些未经明确训练以实现分割不变性的模型的推理时行为。在这种设置下,等价分割产生的任何有用多样性都是训练模型的一种涌现属性,而非内置的不变性约束。这种方法还将标记化与近期将推理视为有限计算下轨迹选择的观点联系起来(Snell 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib50);Merrill 和 Sabharwal, 2024 (https://arxiv.org/html/2606.15521#bib.bib31);Pfau 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib36))。Transformer 是逐个词元计算的,因此改变分割会改变模型内部计算的粒度和顺序,即使提示字符串不变。从这个意义上说,重标记化是一种受控的、改变模型内部处理过程而不改变提示本身的方法。因此,有趣机制不仅在于替代分割是提升还是损害基准性能,还在于它们揭示了不变性和敏感性如何在标记化模型中共存。这个问题是及时的,因为标记化研究越来越多地将标记器视为不仅仅是压缩工具(Bostrom 和 Durrett, 2020 (https://arxiv.org/html/2606.15521#bib.bib4);Zouhar 等人, 2023 (https://arxiv.org/html/2606.15521#bib.bib61);Schmidt 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib43);Ali 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib2);Haslett, 2025 (https://arxiv.org/html/2606.15521#bib.bib19)),而字节级和无标记器模型旨在完全消除这种依赖性(Xue 等人, 2022 (https://arxiv.org/html/2606.15521#bib.bib54);Yu 等人, 2023 (https://arxiv.org/html/2606.15521#bib.bib57);Wang 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib53);Pagnoni 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib34))。我们的工作针对的是互补的情况:只要部署的 LLM 仍然使用标记化,有效分割的多样性本身就是一种机制上有意义的自由度。至少,它不能被忽视。本文的其余部分分三步阐述这一论点。我们首先通过隐藏状态分析,探究分割级组合理解是否在训练中涌现。然后,我们衡量残余分割敏感性在四个基准测试和多个训练阶段中的行为后果。最后,我们将重标记化引起的多样性与更传统的输出变异来源进行比较,以评估分割引发的多样性与标准基线。
### 1.1 我们的贡献
我们做出以下贡献:
1. **重标记化作为分割不变性的受控探针。** 我们将重标记化形式化为一种语义保持的干预,仅改变固定字节串的词元级表征。这提供了一种干净的方法来探究标记化模型如何响应等价输入,而不改变措辞、语法或任务定义。
2. **内部表征显示涌现的分割对称性和残余敏感性。** 通过隐藏状态分析,我们表明分割引起的变异在早期和中间层被抑制,但在最后一层被放大。
3. **一个具体的评估协议。** 我们用 `pass@retok(k)` 将对称性-敏感性权衡形式化,这是 `pass@k` 的直接类似物,其中多样性来自输入表征而非输出随机性。这提供了一种具体的方法来研究标记化语言模型中分割不变性和敏感性如何共存。
4. **任务相关的增益和鲁棒性趋势。** 在 GSM8K、GSM8K Python 和 HumanEval 上,我们显示 `pass@retok(k)` 随 `k` 上升,并恢复了规范解码遗漏的实例。我们还显示,在 OLMo-2 和其他模型系列的后训练阶段,更强的模型在重标记化下也倾向于保持更强。换句话说,重标记化对称性往往与模型性能同步。
5. **重标记化恢复结构多样化的正确程序。** 在 HumanEval 上,基于 AST 的语法多样性测量表明,重标记化不仅仅是复现单一的规范解模板。正确的重标记化生成涵盖了相当广泛的程序结构,并且某些任务仅通过**重标记化采样**才能解决。
## 2 相关工作
子词标记化方案,如 BPE、WordPiece 和 SentencePiece,被引入以平衡开放词汇覆盖率和计算效率(Sennrich 等人, 2016 (https://arxiv.org/html/2606.15521#bib.bib46);Kudo 和 Richardson, 2018 (https://arxiv.org/html/2606.15521#bib.bib26);Schuster 和 Nakajima, 2012 (https://arxiv.org/html/2606.15521#bib.bib44);Radford 等人, 2019 (https://arxiv.org/html/2606.15521#bib.bib40))。但标记化不仅仅是在建模开始前应用的一种压缩步骤,因为词汇表和词元边界的选择会改变文本呈现给模型的方式、哪些特征位于单个词元内而非分散在多个词元中,以及表达相同输入所需的序列长度。先前的研究表明,这些设计选择会影响预训练效率、下游性能以及模型可靠捕获的语言结构类型(Bostrom 和 Durrett, 2020 (https://arxiv.org/html/2606.15521#bib.bib4);Ali 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib2);Zouhar 等人, 2023 (https://arxiv.org/html/2606.15521#bib.bib61);Schmidt 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib43))。因此,标记化是构建语言模型的重要组成部分,不能被视为与模型行为无关的细节。
在现代 LLM 中,先前的工作发现了部分但不完整的字符和子词级意识(Kaushal 和 Mahowald, 2022 (https://arxiv.org/html/2606.15521#bib.bib24);Itzhak 和 Levy, 2022 (https://arxiv.org/html/2606.15521#bib.bib22);Edman 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib12))。其他研究显示了优于预期的处理非规范分割的证据(Zheng 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib58)),同时也存在字符级和算术任务中的系统性失败(Singh 和 Strouse, 2024 (https://arxiv.org/html/2606.15521#bib.bib48);Cosma 等人, 2025 (https://arxiv.org/html/2606.15521#bib.bib10))。最近的机理工作研究了字符级标记化,并认为鲁棒性源于早期层的组内注意力,该注意力从碎片化输入中重建规范词汇单元(Yang 等人, 2026 (https://arxiv.org/html/2606.15521#bib.bib56))。最密切相关的是,Geh 等人 (2025 (https://arxiv.org/html/2606.15521#bib.bib16)) 表明非规范分割可以足够强地保持语义,从而绕过安全过滤。我们对重标记化的使用更加狭窄且具有建设性:我们将其视为一种语义保持的探针,用于研究鲁棒性和推理时多样性。在输入扰动方法(如释义、格式选择如分隔符和空格、言语化器和拼写错误)中,已证明 LLM 对微小变化特别敏感(Liu 等人, 2023 (https://arxiv.org/html/2606.15521#bib.bib29);Qiang 等人, 2024 (https://arxiv.org/html/2606.15521#bib.bib39);Bsharat 和 Shen相似文章
随机分词法提高模型鲁棒性
本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。
语言模型如何失败:承诺性与持续性推理失败的词元级特征
本文通过词元级不确定性信号,刻画了语言模型在推理中失败的两种不同过程——承诺性失败与持续性不确定性,并展示了其对自一致性及失败检测策略的启示。
大语言模型的序贯统计推断:表征、有效性与监控
本文主张采用序贯推断框架来增强LLM的可信度,通过将交互建模为依赖随机过程,确保在重复使用下的有效性,并实现行为变化的在线监控。
泛化的搭便车假说:解释与缓解涌现性失调
提出搭便车假说,认为对话模板标记(chat-template tokens)可能导致大型语言模型(LLMs)中的涌现性失调,并引入了令牌正则化微调(TReFT)来缓解这一问题,同时保持域内学习。
大语言模型顺序后训练中的表征坍塌
本文研究了大型语言模型在顺序后训练中的表征坍塌现象,表明重复的适应阶段会压缩内部表征,降低可塑性和域外泛化能力。作者提出了轻量级干预措施,在不牺牲行为增益的前提下保留未来的可学习性。