当不规则性有所帮助：神经形态学中归纳偏置的子类分析

arXiv cs.CL 2026/05/21 04:00 论文

morphology neural-morphology inductive-bias japanese inflection irregular-verbs transformers

摘要

本文研究了字符级Transformer模型如何泛化到日语过去时屈折中的不规则动词子类型。控制实验表明，包含不规则示例可以改善泛化，挑战了规则性简化学习的假设。

arXiv:2605.20558v1 公告类型：新摘要：神经形态生成系统通常在基准数据集上取得较高的整体准确率，然而这种性能可能掩盖集中在罕见形态子类中的系统性错误。我们研究了日语过去时动词屈折，并表明一个非常小、结构特异的不规则子类（占数据不到1%）导致了不成比例的错误份额。控制消融实验表明，删除该子类比删除所有不规则动词能带来更大的泛化提升，这表明并非所有不规则性对模型不稳定性的贡献相同。这些发现提示，错误集中是由极端低频形态模式与特定形态音韵过程（特别是辅音重叠）之间的相互作用驱动的。我们认为形态学评估应包含超出标准变位类别的更细粒度子类分析。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:33

# 神经形态学中归纳偏置的子类分析
来源：https://arxiv.org/html/2605.20558

类型4（其他不规则动词）：偏离标准Godan和Ichidan模式的动词。子类型捕获更细粒度的正字法变异：

–类型4-1：词干结尾 /i/ + 促音化。这些动词类似于类型2，但在词干结尾 /i/ 和过去时后缀 -ta 的边界处有促音化。示例：activate=falseまじる majiru '混合' → activate=falseまじった majitta '混合了'。计数：119

–类型4-2：词干结尾 /e/ + 促音化。促音化发生在词干结尾 /e/ 和过去时后缀 -ta 的边界处，增加了结构复杂性。示例：activate=falseあきれかえる akirekaeru '感到震惊' → activate=falseあきれかえった akirekaetta '震惊了'。计数：37

–类型4-3：局部偏差。这些动词大多遵循类型1的构成，但包含独特的词干行为。由于一对一原形–形式约束，仅出现一个实例。示例：activate=falseいく iku '去' → activate=falseいった itta '去了'。计数：1

表1（https://arxiv.org/html/2605.20558#S2.T1）总结了不同动词类型的数据集分布。

| 动词类型 | 计数 | 百分比（%） |
|---------|------|------------|
| 所有动词 | 3,958 | 100 |
| 类型1（Godan） | 2,503 | 63.2 |
| 类型2（Ichidan） | 1,298 | 32.8 |
| 类型3（规范不规则） | 0 | 0.0 |
| 类型4（其他不规则） | 157 | 4.0 |
| 4-1（/i/ + 促音化） | 119 | 3.0 |
| 4-2（/e/ + 促音化） | 37 | 0.9 |
| 4-3（局部） | 1 | 0.02 |

表1：按动词类型划分的数据集统计。为简洁起见，类型4的子类型在括号中列出。

## 3. 模型

我们评估两种用于日语过去时屈折的字符级Transformer编码器-解码器模型。第一种遵循SIGMORPHON 2020基线（Vylomova等人，2020b（https://arxiv.org/html/2605.20558#bib.bib15）），第二种基于SIGMORPHON–UniMorph 2023的原形分割评估（Goldman等人，2023（https://arxiv.org/html/2605.20558#bib.bib5）），该评估防止原形同时出现在训练集和测试集中。两种模型都在平假名字符串上运行，捕获辅音促音化、元音交替和其他正字法现象，使其适合分析数据集中罕见的结构不规则性。

## 4. 实验设置

### 4.1. 训练方案

两种模型的训练遵循各自共享任务基线中提供的默认超参数配置（Vylomova等人，2020b（https://arxiv.org/html/2605.20558#bib.bib15）；Goldman等人，2023（https://arxiv.org/html/2605.20558#bib.bib5））。模型使用交叉熵损失和教师强制进行训练。优化采用Adam算法（Kingma和Ba，2015（https://arxiv.org/html/2605.20558#bib.bib26）），并带有标准Transformer学习率调度（Vaswani等人，2017（https://arxiv.org/html/2605.20558#bib.bib14））。随机种子被固定以确保实验的可重复性。

### 4.2. 受控数据集条件

为了系统评估不规则子类型对模型泛化的影响，我们使用精心挑选的数据集子集进行受控实验：

- \*完整数据集（类型1–4）：包括所有规则和不规则动词，代表结构子组的自然分布。
- \*仅规则动词（类型1–2）：排除所有不规则动词，移除正字法复杂的少数子组。
- \*规则动词 + 单个不规则子类型：类型1–2加上4-1、4-2或4-3中的一种，以隔离每个不规则子类型的贡献。
- \*规则动词 + 子类型组合：添加4-1、4-2和4-3的选定组合，以评估少数子组之间的交互效应。

#### 评估对齐。

对于每次消融，从训练集和测试集中移除相同的动词类型，确保观察到的差异反映了结构子组的影响，而非数据集规模的影响。

### 4.3. 评估指标

评估遵循已建立的SIGMORPHON约定，并辅以子组级别的诊断，以解决聚合报告的局限性。我们的指标包括：

- \*精确匹配准确率：预测形式与黄金目标完全一致的比例（Cotterell等人，2017（https://arxiv.org/html/2605.20558#bib.bib4）；Goldman等人，2023（https://arxiv.org/html/2605.20558#bib.bib5））。
- \*子组准确率：针对每种动词类型分别计算的准确率，以揭示结构少数子组（如罕见不规则词）中集中的错误，这是一种常用于诊断系统性形态学失败的技术（Kann和Schütze，2016（https://arxiv.org/html/2605.20558#bib.bib7）；Makarov和Clematide，2018（https://arxiv.org/html/2605.20558#bib.bib9）；Vylomova等人，2020b（https://arxiv.org/html/2605.20558#bib.bib15））。
- \*差异比率：为了量化错误在不同子组间过度的集中程度，我们为子组g定义*差异比率*为：差异比率_g = 错误份额_g / 数据份额_g。该比率衡量子组的相对错误负担；大于1的值表示该子组相比其在数据中的普遍性，承受着不成比例的高错误率。类似的子组特定性能差异已在身份感知AI和一般预测建模中得到探索（Buolamwini和Gebru，2018（https://arxiv.org/html/2605.20558#bib.bib3）；Sagawa等人，2020（https://arxiv.org/html/2605.20558#bib.bib13）；Blodgett等人，2020（https://arxiv.org/html/2605.20558#bib.bib2））。

这种评估策略采用了更广泛NLP领域的公平性诊断，说明了为什么聚合指标常常掩盖语言结构中的局部弱点（Blodgett等人，2020（https://arxiv.org/html/2605.20558#bib.bib2）；Lake和Baroni，2018（https://arxiv.org/html/2605.20558#bib.bib8）；Marcus，2018（https://arxiv.org/html/2605.20558#bib.bib10））。

## 5. 结果

### 5.1. 基线性能

在完整训练条件下，两个系统在日语过去时屈折上均实现了高聚合准确率：

- \*SIGMORPHON 2020：97.98%
- \*SIGMORPHON 2023：97.73%

尽管聚合准确率高，但错误集中在特定的低频子类中。

### 5.2. 子类型特定消融效应

为了评估各个不规则子类的贡献，我们将每个类型4子组独立地从训练和评估数据中移除。移除类型4-2带来了最大的性能提升：

- \*2020：97.98% → 99.98%（+2.00）
- \*2023：97.73% → 99.75%（+2.02）

这对应于2020系统相对基线错误质量大约99%的错误减少，以及2023系统88%的错误减少。¹¹误差减少相对于 (100−准确率) 计算。

相比之下，移除其他不规则子类带来的改进要小得多。消除所有不规则动词（类型4）并未达到最大准确率，表明性能提升并非由移除不规则性均匀驱动。

### 5.3. 错误的经验分布

表2：在完整训练条件下，SIGMORPHON 2020和2023模型观察到的错误。错误计数突出了低频不规则子类型中失败的集中程度。表2（https://arxiv.org/html/2605.20558#S5.T2）总结了在完整训练条件下SIGMORPHON 2020和2023模型观察到的错误分布。将两个模型并排展示突出了跨架构错误模式的一致性。

在这两种架构中，类型4-2动词相对于其数据集频率，在促音化相关失败中占据了不成比例的高份额。大多数错误涉及小字activate=falseっ tsu的遗漏（例如，activate=falseあまがけった amagaketta → activate=falseあまがけた amagaketa）或虚假插入（activate=falseできた dekita → activate=falseできった dekitta）。这些集中的失败在保留类型4-2的消融变体中持续存在，而移除类型4-2则急剧减少了总错误数。相比之下，类型4-1和4-3相对于其数据集份额贡献的错误较少。这种不对称性表明，结构困难并非仅由不规则状态驱动，而是由频率、音韵条件和正字法实现的交互作用驱动。

### 5.4. 跨子类的错误集中度

接下来，我们检查在完整训练下按动词类型划分的错误分布。尽管类型4-2仅占数据集的0.9%，但在2020系统中，它却占到了总错误的15.8%。

差异比率（见第4.3节）表明，类型4-2对总错误的贡献是其比例代表值的十七倍以上（17.56倍）。相比之下：

- \*类型1：比率 0.80
- \*类型2：比率 0.50

两种架构表现出一致的错误模式，表明类型4-2中的集中失败是与模型无关的。

因此，多数子类产生的错误少于均匀分布下的预期，而类型4-2产生的错误则显著更多。这种模式在2023系统中一致，表明它与架构无关。

### 5.5. 定性错误模式

在两种模型中，类型4-2的主要失败模式涉及在构成过去时时对辅音促音化的错误处理。错误包括：

- \*必需促音化的遗漏（例如，activate=falseねがえった negaetta → activate=falseねがえた negaeta）
- \*虚假促音化（例如，activate=falseできた dekita → activate=falseできった dekitta）

这些模式占该子类错误的大部分，表明不稳定性是结构性的局部问题，而非随机。

## 6. 错误分析

除了定量准确率指标外，我们在所有实验条件下进行了细粒度的错误分析。我们手动检查了2020和2023模型在完整和消融训练方案下的剩余预测错误。错误被分类为促音化错误、词干交替错误、语素边界错误、过度规则化和元音长度错误。如表2（https://arxiv.org/html/2605.20558#S5.T2）所示，类型4-2占据了不成比例的高错误份额。

### 6.1. 错误分类

表6.1（https://arxiv.org/html/2605.20558#S6.SS1）展示了错误分类，强调了每种错误类型背后的正字法现象及其主要结构来源。

表3：错误分类，包含主要结构来源和正字法属性。

### 6.2. 促音化和词干交替错误

促音化错误是最常见且结构上最具揭示性的。它们源于小字activate=falseっ tsu字符的遗漏或虚假插入，特别是在促音化与词干结尾 /e/ 元音相互作用的动词中。在完整训练下，尽管类型4-2动词占数据集不到1%，但它们却占了促音化相关失败的大多数。这种集中现象在2020和2023系统中均可见，并且在多种消融方案下持续存在，除非类型4-2本身被移除。词干交替错误发生在模型未能应用预期的元音条件交替时（例如，activate=falseあきれかえる akirekaeru → activate=falseあきれかえう akirekaeu）。这些错误主要与不规则子类4-2和4-3相关，表明交替和促音化以不稳定的方式相互作用，影响了模型。

### 6.3. 选择性消融对错误模式的影响

消融结果进一步阐明了这一模式。当所有不规则动词被移除时，总错误数适度减少。然而，当仅移除类型4-2时，错误数减少更显著，且促音化相关失败几乎消失。相比之下，移除4-1或4-3而保留4-2并不能消除集中的促音化错误。这种不对称性表明，结构复杂性在不规则子类中并非均匀分布。

## 7. 讨论

我们的分析表明，不规则性对神经形态学习并非统一有害。相反，其影响取决于结构复杂性、分布频率以及与模型归纳偏置的交互。一个特定的低频不规则子类型作为一个结构上独特的案例出现，对总体错误质量贡献不成比例。尽管它在训练数据中占比不到1%，却占据了系统性失败的很大一部分。这种集中性表明，不稳定性源于特定的形态音位配置，而非一般的不规则性。关键在于，移除整个不规则集（类型4）并不能最大化性能。保留其他不规则子类型（4-1和4-3）比纯粹的规则训练方案产生更低的错误率。这表明结构变异与泛化之间存在非单调关系。然而，极低频、结构上独特的模式（如类型4-2）与泛化稳定性降低相关。从分布角度来看，类型4-2作为一个罕见但极具影响力的形态模式。尽管它在训练数据中占比不到1%，却对模型错误贡献不成比例。聚合准确率（约98%）掩盖了这一效应，只有在子类型级评估下才可见。这一模式凸显了形态建模中聚合评估的一个普遍局限性：整体性能可能掩盖罕见但结构复杂子类中的集中弱点。只有细粒度分析才能揭示这些效应。

在方法论上，这些结果表明，形态生成的评估应包含子类型级报告和明确的错误集中度度量。仅靠聚合指标可能掩盖语言学上有意义的弱点，特别是在形态丰富的语言中，结构子类在频率和复杂性上差异显著。

## 8. 结论

我们提出了一种子组感知的日语过去时屈折分析，研究了少数结构子类如何影响神经泛化。通过受控消融实验，我们表明：

- · 类型4-2不规则动词构成了一个低频率的形态子类，具有不成比例的错误集中度。
- · 仅移除该子类型比移除所有不规则动词能更大幅度地提升性能。
- · 适度的不规则性可能有助于泛化，而极低频的不规则模式则可能破坏学习稳定性。

这些发现表明，高聚合准确率可能掩盖形态系统内的结构效应。因此，评估应超越整体性能，包含对罕见形态子类的分析。更广泛地，这些结果强调了在神经NLP中进行分布敏感评估的重要性。鲁棒的语言建模不仅需要高平均性能，还需要在罕见且结构复杂的子类上具有稳定的泛化能力。将细粒度的诊断分析纳入形态基准测试可以提高评估的透明度和语言学有效性。

## 9. 局限性

需要承认若干局限性。首先，我们的研究关注单一语言和单一形态任务（过去时屈折）。尽管日语为检查形态学习中的结构效应提供了一个受控环境，但跨语言验证对于确定普遍性是必要的。其次，我们评估了源自共享任务的两种基于Transformer的架构。虽然这些代表了强基线，但替代架构——如预训练的字符级语言模型或多语言系统——可能对低频形态模式表现出不同的敏感性。

## 10. 未来工作

若干

当不规则性有所帮助：神经形态学中归纳偏置的子类分析

相似文章

发展性方法揭示神经语言模型的统计学习：Transformer从最抽象的统计模式中泛化

当Transformer学习"不可能"语言时，它们学到了什么？

归纳头插值N-grams

通过行为微调对语言模型中的病理样行为模式进行建模

在词元级别上比较Transformer和混合模型

提交意见反馈