当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略

arXiv cs.CL 2026/04/21 04:00 论文

natural-language-inference robustness tokenization informal-text distribution-shift nlp data-augmentation

摘要

# 分词失败、分布偏移及针对性缓解策略来源：[https://arxiv.org/html/2604.16787](https://arxiv.org/html/2604.16787) ## 当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略 ###### 摘要我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时，非正式表层形式如何降低 ELECTRA-small（14M）和 RoBERTa-large（355M）的自然语言推理准确率：俚语替换、表情符号替换、Gen-Z 填充词，以及它们的

arXiv:2604.16787v1 类型：新摘要：我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时，非正式表层形式如何降低 ELECTRA-small（14M）和 RoBERTa-large（355M）的自然语言推理准确率：俚语替换、表情符号替换、Gen-Z 填充词及其组合。俚语替换（将正式词汇替换为非正式对应词，例如 "going to" -> "gonna"，"friend" -> "homie"）造成的性能下降极小（最多仅 1.1 个百分点）：俚语词汇基本都在 WordPiece 的词表覆盖范围内，因此分词器可以无损处理这些词。表情符号会将实义词替换为 Unicode 字符，而 ELECTRA 的 WordPiece 分词器会将其映射为 [UNK]，导致任何已学习参数在处理前输入信号就已遭到破坏（93.6% 的表情符号示例至少包含一个 [UNK]，平均每个示例 2.91 个）。噪声词（如 no cap, deadass, tbh）完全在词表内，但未出现在 NLI 训练数据中，这与模型给它们分配了并不具备的推断权重相一致。这两种失效模式需要不同的干预手段：预处理通过在分词前对文本进行规范化来恢复表情符号场景的准确率；数据增强则通过在训练过程中让模型接触带有噪声的样本来应对噪声问题。结合两种方法的混合方案使 ELECTRA 在 SNLI 数据集的混合变体上达到了 88.93% 的准确率（从原来的 75.88% 提升而来），且在干净文本上没有出现统计学意义上的显著下降。在与 GPT-4o-mini 零样本表现的对比中，未经缓解的 ELECTRA 在变换后的变体上显著较差（p < 0.0001）；而混合 ELECTRA 在所有 SNLI 变体上均超越了它，并在 MultiNLI 上达到了统计等效水平。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:04

# 分词失败、分布偏移与针对性缓解策略
Source: https://arxiv.org/html/2604.16787
## 当非正式文本破坏NLI：分词失败、分布偏移与针对性缓解策略

###### 摘要

我们研究了在应用于SNLI和MultiNLI的四种变换（俚语替换、Emoji替换、Z世代填充词及其组合）下，非正式的表面形式如何降低ELECTRA-small（14M参数）和RoBERTa-large（355M参数）的NLI准确率。俚语替换（用非正式等价词替换正式词汇，例如将*going to*替换为*gonna*，*friend*替换为*homie*）造成的准确率下降极小（最多仅1.1个百分点）：俚语词汇大部分落在WordPiece词表覆盖范围内，因此分词器能直接处理而无信号损失。Emoji将实义词替换为Unicode字符，ELECTRA的WordPiece分词器会将其映射为\[UNK\]，导致输入信号在任何学习参数接触到之前就被破坏（93.6%的Emoji示例至少包含一个\[UNK\]，平均每个示例2.91个）。噪声词（如*no cap, deadass, tbh*）完全在词表内，但不出现在NLI训练数据中，这表明模型赋予了它们本不具推断价值的权重。这两种失效模式对应不同的干预手段：预处理通过在分词前对文本进行规范化来恢复Emoji场景下的准确率；数据增强则通过在训练期间让模型接触带有噪声的样本来处理噪声问题。结合两者的混合策略使ELECTRA在SNLI的组合变体上达到88.93%的准确率（较基准的75.88%大幅提升），且在干净文本上无统计学意义上的性能下降。与GPT-4o-mini的zero-shot表现相比，未经缓解的ELECTRA在变换变体上显著更差（p<0.0001）；而混合策略的ELECTRA在所有SNLI变体上均超越它，并在MultiNLI上达到统计一致性。

## 1 引言

NLI模型基于SNLI[1 (https://arxiv.org/html/2604.16787#bib.bib1)]和MultiNLI[16 (https://arxiv.org/html/2604.16787#bib.bib16)]训练，准确率分别超过89%和90%，但这些基准测试集几乎全部由经过精心编辑的正式文本构成。SNLI的前提（premise）是一张图片的说明文字；假设（hypothesis）则由众包标注员按照指示编写成语法正确的句子。而现实中的文本往往更加杂乱。用户在评论商品时可能会写*“the jacket fits great no cap”*，或发送一条充斥着Emoji来替代名词的消息——而这些名词正是模型原本被训练用来进行推理的对象。

以往NLI鲁棒性研究主要关注标签层面的伪影（label-level artifacts）：即模型依赖数据集构建方式所产生的词与标签之间的表面关联[8 (https://arxiv.org/html/2604.16787#bib.bib8),11 (https://arxiv.org/html/2604.16787#bib.bib11)]。我们研究的是另一种漏洞。我们所应用的变换保留了命题内容，但以反映人们实际非正式写作习惯的方式改变了表面形式。如果模型学习了鲁棒的语义表征，准确率不应发生变化。当准确率确实下降时，便表明模型依赖于特定的表面模式而非真实含义。

我们在两种模型和两个数据集上应用了三种单一变换（俚语、Emoji、噪声）及其组合。俚语对准确率影响甚微（降幅最多1.1pp）。Emoji和噪声在SNLI上各造成高达9pp的准确率下降，组合变体甚至达到13pp，在MultiNLI上也有较小但一致的负面影响（低于6pp）。更有意思的发现在于原因：Emoji和噪声通过不同的机制导致失效，我们通过直接的分词分析验证了这一点。这种机制差异决定了哪种缓解策略有效。

作为参考基准，我们与GPT-4o-mini的zero-shot表现进行了对比。未经缓解时，尽管微调后的ELECTRA在干净文本上表现更强，但在变换变体上却显著落后。混合训练策略填补了这一差距。

## 2 相关工作

### 2.1 NLI中的标注伪影

多篇论文表明，NLI模型能够利用标准基准测试中的浅层线索。Gururangan等[8 (https://arxiv.org/html/2604.16787#bib.bib8)]发现，仅使用假设（无前题）训练的模型能通过捕捉标注过程中引入的词汇模式在SNLI上达到67%的准确率。McCoy等[11 (https://arxiv.org/html/2604.16787#bib.bib11)]表明，前提与假设之间的高词汇重叠会导致模型无论实际关系如何都预测为蕴涵。Poliak等[14 (https://arxiv.org/html/2604.16787#bib.bib14)]在多个NLI数据集上确认了类似发现。

这些属于标签层面的伪影：问题在于表面特征与标签之间存在虚假相关性。我们的变换则不同。我们不改变标签或引入新关联，而是在保持含义不变的情况下改变表面形式。真正理解句法语义的模型不应该在乎“man”是拼写出来还是被替换为Emoji。

### 2.2 对表面变化的鲁棒性

Gardner等[6 (https://arxiv.org/html/2604.16787#bib.bib6)]引入了对比集（contrast sets），即对测试用例进行最小编辑以翻转黄金标签，研究发现准确率下降了10–25%。Ribeiro等[15 (https://arxiv.org/html/2604.16787#bib.bib15)]提出了CheckList，这是一个行为测试框架，使用模板生成的跨多种语言学现象的示例来探测模型。Morris等[13 (https://arxiv.org/html/2604.16787#bib.bib13)]开发了TextAttack，用于对NLP输入进行对抗性修改。

我们的方法与这些理念一脉相承，但关键区别在于：我们不改变黄金标签。我们所应用的变换是保义的，因此任何准确率下降都可完全归因于对表面形式的依赖，而非真正的语义难度。

### 2.3 噪声与非正式文本

Eisenstein[5 (https://arxiv.org/html/2604.16787#bib.bib5)]记录了社交媒体语言中系统的语音模式。Baldwin和Li[2 (https://arxiv.org/html/2604.16787#bib.bib2)]研究了处理噪声用户生成内容的计算方法。W-NUT共享任务[4 (https://arxiv.org/html/2604.16787#bib.bib4)]在Twitter和其他非正式来源上对标了命名实体识别。NLI中对非正式文本的鲁棒性受到的关注少于序列标注任务，部分原因在于基准数据集在结构上是正式的。本文直接针对这一空白展开研究。

### 2.4 缓解策略

Liu等[9 (https://arxiv.org/html/2604.16787#bib.bib9)]表明，在少量挑战集数据上进行微调即可打破模型对伪影的利用，而无需完全重新训练。Zhou和Bansal[17 (https://arxiv.org/html/2604.16787#bib.bib17)]证明，多样化的数据增强能提升模型对分布外文本的泛化能力。这些方法聚焦于训练阶段的干预。我们将训练时的数据增强与推理时的预处理进行对比，发现两种方法针对不同的失效模式，从而催生了结合使用的思路。除了测试鲁棒性外，我们还定位了处理管道中不同的失效环节，并证明缓解措施的有效性取决于哪个阶段出了问题。

## 3 方法

### 3.1 数据集与模型

我们使用SNLI[1 (https://arxiv.org/html/2604.16787#bib.bib1)]（55万训练集/9,842验证集）和MultiNLI[16 (https://arxiv.org/html/2604.16787#bib.bib16)]（39.3万训练集/9,815匹配验证集）。SNLI将图片说明作为前提，众包标注的假设为假设；MultiNLI涵盖电话录音、小说和政府文本等十个领域，词汇多样性更高。

我们对两种模型进行微调。ELECTRA-small[3 (https://arxiv.org/html/2604.16787#bib.bib3)]包含1400万参数，使用词表大小为30K的WordPiece分词器。RoBERTa-large[10 (https://arxiv.org/html/2604.16787#bib.bib10)]包含3.55亿参数，使用词表大小为50K的字节级BPE分词器。两种模型均在批量大小32、学习率5×10⁻⁵、最大序列长度128的条件下训练3个Epoch。

对于RoBERTa的数据增强和混合策略实验，我们发现需要设置warmup_ratio=0.06。否则训练会崩溃至33.82%的准确率（三类问题的随机猜测水平）。ELECTRA-small则无需预热（warmup）。我们将在第5.4节[5.4 (https://arxiv.org/html/2604.16787#S5.SS4)]讨论此问题。

### 3.2 文本变换

所有四种变换仅应用于评估集。训练数据保持干净；变换的接触通过下文所述的数据增强实现。每种变换均保留命题内容。

**俚语**：短语级缩写（如*going to*→*gonna*；*trying to*→*tryna*）及非正式同义词（如*picture*→*pic*；*friend*→*homie*）。应用概率为1.0。覆盖约35%的SNLI词汇。

**Emoji**：60+个名词和动词类别中的实义词被替换为语义相关的Unicode Emoji（如*man*→👨；*running*→🏃）。多个源词可映射到同一Emoji，导致多对一的信息丢失。覆盖约40%的SNLI词汇；平均每个示例替换3.2个词。

**噪声**：在假设末尾添加一个Z世代表示肯定或强调的词（*deadass, lowkey, no cap, tbh, highkey, on god, frfr, real talk, bet*）。这些词不增加命题内容。均未出现在SNLI或MultiNLI的训练数据中。应用概率为1.0。

**组合**：同时应用上述三种变换。

所有变换均旨在保留命题内容。俚语和Emoji应用于前提和假设；噪声仅附加于假设。俚语替换构造上意义等价；噪声词不增加命题内容。Emoji是最模糊的情况：多对一映射意味着部分精度丢失，但只要Emoji与被替换词语义相关（映射已强制保证），蕴涵关系依然成立。

每种变换的具体前后文示例见附录A[Appendix A (https://arxiv.org/html/2604.16787#A1)]。

#### 固定评估集

我们在任何模型训练前一次性生成全部五个评估变体（原始版加四种变换）。所有模型均在完全相同的示例上进行评估，这对于有效的配对统计检验至关重要。

### 3.3 缓解策略

**数据增强**：每个训练示例有50%的概率被独立复制，并使用随机选择的变换类型进行处理。这将训练集规模扩大近一倍（SNLI：82.5万；MultiNLI：59万）。模型能在正式和非正式表面形式下接触相同的语义内容，预期这将使其建立对表面变化的不变性。

**预处理**：在推理阶段、输入到达分词器前应用反向变换：俚语扩展回正式形式（98%精确还原），Emoji转换回最接近的文本标签（由于多对一映射，73%精确恢复），噪声词移除（过滤列表召回率100%）。这些数据通过每个验证示例经过变换及其逆变换的往返计算得出。无需重新训练。73%的数据反映了内在的多对一限制：一个人形Emoji可能替换过*man*、*boy*或*guy*，但预处理总是将其映射回*man*。该词不再属于\[UNK\]，但不保证是原始词。

**混合**：训练时进行数据增强，推理时进行预处理。这需要重新训练的模型和预处理层，但成本较低：预处理增加的延迟可忽略不计，增强训练仅增加约50%的步骤数。

### 3.4 LLM基线

我们在相同的固定评估集上对GPT-4o-mini和GPT-3.5-turbo进行zero-shot评估，使用单轮提示词：

> System: You are a natural language inference classifier. Given a premise and hypothesis, output exactly one word: entailment, neutral, or contradiction. No explanation.

温度设置为0；响应被缓存以确保跨分析的一致性评估输出。

### 3.5 统计检验

我们使用带连续性校正的McNemar检验[12 (https://arxiv.org/html/2604.16787#bib.bib12)]对所有成对模型比较进行评估。由于所有模型均在相同的固定示例上评估，该检验有效。我们在两个独立的检验族内应用Bonferroni校正：

- 微调模型比较：\(C(4,2) \times 5 = 30\)次检验，阈值α=0.05/30≈0.0017（标记**）。
- LLM比较：按模型/数据集组合视为独立检验族（每组5-10次检验），阈值α=0.005–0.010。所有核心声明的p<0.0001，且在所述校正后仍保持显著。

Bootstrap 95%置信区间（2000次重复，种子42）计算了所有报告的准确率指标；误差范围为±0.3–0.5pp。

## 4 结果

### 4.1 基准性能

表1[Table 1 (https://arxiv.org/html/2604.16787#S4.T1)]展示了无缓解措施时各变换下的准确率。俚语几乎未造成性能下降（所有模型和数据集最多仅降1.1pp）。Emoji和噪声是导致失效的主要原因，组合变体产生的下降幅度最大。

**表 1：无缓解措施时的准确率 (%)**。MNLI = MultiNLI。Bootstrap 95% CI误差范围：所有单元格为±0.3–0.5pp。**Emoji与噪声鲁棒性之间的差距因模型规模而异**。ELECTRA在Emoji和噪声上分别下降8.1pp和9.0pp（SNLI）。RoBERTa在Emoji上下降相似的8.0pp，而在噪声上仅降3.4pp。Emoji导致的下降在各模型间几乎一致；噪声差距则不然。这种不对称性将在4.3节[4.3 (https://arxiv.org/html/2604.16787#S4.SS3)]解释。

### 4.2 缓解结果

表2[Table 2 (https://arxiv.org/html/2604.16787#S4.T2)]至表4[Table 4 (https://arxiv.org/html/2604.16787#S4.T4)]展示了四种策略的结果。对于ELECTRA，混合策略在两个数据集的所有变体上均为最佳或并列最佳。对于SNLI上的RoBERTa，模式相同。但MultiNLI上的RoBERTa结果较为复杂：预处理在恢复Emoji准确率方面优于混合策略（90.31% vs 90.14%），而数据增强在处理噪声时优于混合策略（90.37% vs 90.17%）。缓解措施的优劣顺序与失效机制一致：预处理更利于Emoji，数据增强更利于噪声。

**表 2：SNLI上的ELECTRA-small (%)**。粗体标记每列最佳结果。混合策略 vs 基线：Emoji、噪声和组合变体p<0.0001**；原始文本p>0.05。预处理在Emoji上优于数据增强(p<0.0001**)；数据增强在噪声上优于预处理(p<0.0001**)。**表 3：MultiNLI上的ELECTRA-small (%)**。混合策略 vs 基线：噪声和组合变体p<0.0001**。表 4：RoBERTa-large结果 (%)**。在MultiNLI上，单一缓解策略在特定变体上优于混合策略，这与ELECTRA的模式不同。

### 4.3 为何Emoji和噪声的失效机制不同

缓解结果中最具洞察力的信号并非总体数字，而是排序规律：预处理在Emoji上优于数据增强，数据增强在噪声上优于预处理。该模式在两种模型和两个数据集上一致。这指向了两种不同的失效模式。

#### Emoji与分词过程

我们在所有五个评估变体上运行了分词分析。对于ELECTRA的WordPiece分词器，Emoji字符完全超出30K词表范围，被映射为\[UNK\]。表5[Table 5 (https://arxiv.org/html/2604.16787#S4.T5)]显示，93.6%经Emoji变换的示例至少包含一个\[UNK\]词元，平均每个示例2.91个。俚语和噪声则产生零个\[UNK\]词元。其机制非常直接：Emoji在模型处理输入之前就破坏了它。预处理通过在分词前将Emoji转回文本来规避此问题；而数据增强无法r

当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略

相似文章

随机分词法提高模型鲁棒性

令牌统计揭示多轮大语言模型交互中的对话漂移

预测语言模型在虚假信息传播活动中的潜在滥用及降低风险的方法

人类打字习惯与Token计数

Apple~Silicon 平台上的波兰语模型跨模型族系推测解码：基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估

提交意见反馈