当Transformer学习"不可能"语言时，它们学到了什么？

arXiv cs.CL 2026/07/01 04:00 论文

摘要

本文研究Transformer语言模型如何学习具有非自然属性的'不可能'语言，发现虽然语法敏感性逐渐下降，但生成能力表现出显著失败，从而提出了未证实语言的链接假说。

arXiv:2606.30815v1 公告类型：新摘要：近期研究表明，Transformer语言模型对人类语言表现出偏向，而非那些被认为人类无法习得的非自然（“不可能”）语言。然而，这些文献主要基于样本效率和测试集困惑度的差异来提出主张，而非直接评估那些可能解释人类语言未证实现象的语言能力。我们评估了两个理论上动机的链接假说：不可能性源自语法敏感性缺陷或生成能力缺陷。使用在受扰乱的“不可能”英语变体上训练的GPT-2风格模型，我们通过BLiMP最小对测量语法敏感性，发现模型性能仅逐渐退化，且受语言信息局部性调节。相反，这些模型在生成方面表现出显著失败，在较长长度下产生的高质量句子明显较少。综合来看，这些结果表明生成缺陷和传播失败是连接语言模型行为与不可能语言未证实现象的一个合理链接假说。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:31

# 当Transformer学习“不可能”语言时，它们学到了什么？

来源：https://arxiv.org/html/2606.30815  
Ram Janarthan∗ Coleman Haley∗,† Sharon Goldwater  
爱丁堡大学  
†coleman\.c\.haley@gmail\.com  

###### 摘要

近期研究表明，Transformer语言模型对人类语言表现出偏好，而相较于那些被认为人类无法习得的“不可能”语言。然而，这些文献主要基于样本效率和测试集困惑度的差异，而非直接评估那些可能解释人类语言中未出现情况的 linguistic 能力。我们评估了两个理论驱动的连接假设：由语法敏感性不足或生成能力缺陷导致的“不可能性”。使用在英语受扰动“不可能”变体上训练的GPT-2风格模型，我们通过BLiMP最小对来测量语法敏感性，发现模型性能仅呈现逐渐下降，且受语言信息局部性的调节。相比之下，这些模型在生成方面表现出显著失败，在较长句子中产生的高质量句子数量大幅减少。这些结果共同表明，生成缺陷和传递失败是语言模型行为与不可能语言未出现之间一个合理的连接假设。

---

当Transformer学习“不可能”语言时，它们学到了什么？

Ram Janarthan∗ Coleman Haley∗,† Sharon Goldwater  
爱丁堡大学  
†coleman\.c\.haley@gmail\.com  

## 1 引言

**脚注：** 这些作者对本文贡献相等。

语言模型（LMs）近期的成功引发了一场关于它们能否为人类语言习得理论提供信息的争论。LMs似乎表现出相当大的语言能力，能生成新颖的语法句子[McCoy等人，2023]，并对各种语言现象表现出敏感性[Hu等人，2023；Linzen等人，2021；Wilcox等人，2024]——这使得一些人认为通用学习机制可能足以习得语言[Mahowald等人，2024；Futrell等人，2025]。相反的观点则认为，语言习得是由先天的、语言特定的约束所引导，这些约束严格限制了可能的人类语言空间，从而解释了跨语言共性和许多逻辑上可能但未经验证的语言的系统性缺失[Chomsky，1966；Chomsky，1998；Moro，2008]。在这种观点下，缺乏语言特定偏好的LMs被认为与解释人类语言习得和未出现语言模式无关[Chomsky等人，2023；Moro等人，2023]。

针对这些主张，Kallini等人（2024）进行了一项实证研究，表明在发育合理数据量上训练的Transformer LMs学习英语的效果和速度都优于那些具有被认为不可能性质的英语修改变体（以下简称“不可能语言”）。随后，这些作者在Kallini等人（2025a）和Futrell等人（2025）中论证，LMs中存在的领域通用归纳偏好可以通过模拟（未）出现人类语言的模式来为语言学理论提供信息。这些论证依赖于学习动态的差异：在不可能语言上训练的LMs往往收敛更慢，并在测试集上产生更高的困惑度。但这使得连接假设到这些语言未出现的问题仍然未被充分发展¹：为什么困惑度或样本效率的差异应该对应到现存人类语言空间的排除？

¹事实上，Kallini等人（2025a）随后呼吁发展语言模型研究与人类语言之间更强的连接假设。

在本研究中，我们聚焦于两种语言学能力作为LM行为与语言“不可能性”之间的候选连接假设，这些假设源自语言学中相对的理论取向。对语法良性的敏感性在那些将未出现归因于学习者能从输入中推断的限制的论述中起核心作用[Chomsky，1980；Chomsky，1966]，而可靠生成良性句子的能力则被那些将不可能性定位于说话者间传递失败的论述所强调[Kirby等人，2008]。如果模型未能习得对语言某些关键方面的敏感性，那么不可能性可能源于不可学习性；而如果模型无法在该语言中生成良性句子，那么不可能性则可能反映语言传递的困难。

我们将研究重点放在Transformer模型在认知合理数据量上习得的能力：要么是English BabyLM语料库[Warstadt等人，2023]，要么是由Kallini等人（2024）定义的“不可能”变体，这些变体是通过对英语句子进行置换得到的。为了评估语法敏感性，我们使用BLiMP最小对数据集[Warstadt等人，2020]，并通过以与Kallini等人（2024）相同方式对BLiMP刺激进行置换，形成BLiMP的“不可能”变体。为了评估生成性能，我们利用了这样一个事实：这些不可能语言中的语法字符串可以通过逆变换得到英语的语法字符串。通过从每个不可能语言模型生成句子并将其转换为对应的英语句子，我们使用一个LLM来评估生成质量。

我们发现，在不可能语言上训练的模型获得了大量的被动语法敏感性，其性能相对于总测试集困惑度和mm-局部熵（一种被提出用于解释不可能语言学习不对称性的信息局部性度量[Someya等人，2025]）均呈逐渐下降趋势。这一结果与人类学习者会从这类数据中无法习得语法能力的主张形成了对比。²

²例如，Chomsky（1980）概述了人类学习者将如何*无法*基于线性顺序（而非层级结构）习得一条规则。

在生成性能方面，我们发现，在不可能语言上训练的模型在其语言中产生的良性句子数量显著减少，且这种方式并不严格与保留测试集困惑度或mm-局部熵一致。

综上所述，这些结果表明，语言模型对不可能语言获得了相当程度的（尽管略有下降）语法敏感性，但往往在生成性能上失败，这表明生成性能是LM对不可能语言的分布建模较差与人类语言不出现之间一个潜在的连接假设。虽然这些结果不会解决关于Transformer是否是好的学习者模型这一争论，但它们确实提供了一种可能的解释，说明为什么某些语言即使在缺乏强烈语言特定归纳偏好的学习者那里也可能是“不可能”的。我们的研究也为使用语言模型研究不可能性提供了更原则性的方法论，我们鼓励未来的研究采用并扩展它。³

³本文代码可在以下网址获取：https://github.com/ramjanarthan/impossible-languages

| 语言 | 缩写 | 扰动规则 | 示例句子 |
|------|------|----------|----------|
| 英语 | E | 无扰动 | Jessica stole this rabbit's hat. |
| 完全反转 | FR | 随机插入一个特殊R令牌，并反转所有令牌的顺序 | hat's rabbit this R stole Jessica |
| 部分反转 | PR | 随机插入一个特殊R令牌，仅反转其后所有令牌的顺序 | Jessica stole R . hat's rabbit this |
| 局部洗牌（窗口3） | S3 | 在窗口大小为3内确定性洗牌令牌 | this Jessica stole hat rabbit's . |
| 局部洗牌（窗口5） | S5 | 在窗口大小为5内确定性洗牌令牌 | this 's rabbit Jessica stole hat . |
| 奇偶洗牌 | SEO | 重新排序使偶数索引令牌出现在奇数索引令牌之前 | Jessica this 's . stole rabbit hat |
| 局部洗牌（窗口10） | S10 | 在窗口大小为10内确定性洗牌令牌 | this 's rabbit . hat Jessica stole |
| 确定性洗牌 | DS | 确定性洗牌所有令牌，洗牌种子为21 | Jessica 's stole hat rabbit . this |
| 非确定性洗牌 | NDS | 非确定性洗牌所有令牌 | this 's rabbit . hat Jessica stole |

表1：英语和不可能语言中的句子示例。彩色框代表GPT-2令牌。我们在整篇文章中使用相同的颜色和缩写代表语言。表中的语言按4-局部熵递增顺序排列（见第2节）。

## 2 背景

哪些语言是“不可能”的，是语言学家们持续讨论的话题，这既因为确定自然语言的真正共性存在困难，也因为未经验证的语言原则上是否可学存在不确定性。尽管如此，Kallini等人（2024）提出了一组候选不可能语言，它们是通过定义对一个自然语言（英语）句子词序的扰动得到的。这些扰动以从未在任何人类语言中观察到的方式操作句子，并且由于使用了未经验证的“不自然”词序而曾被假定为不可能[Moro，2008；Mitchell等人，2020]。每种扰动都应用于如第1节表1所述的标记化句子，并且除一种外，所有扰动都可确定性地转换为英语等价物，我们在第5节中利用了这一点。这种确定性映射也意味着这些语言的真实熵与英语的熵相同，因此，成功学习了英语和不可能语言的模型应该在每种语言上具有相同的困惑度。

事实上，Kallini等人（2024）并未发现这一点。他们在BabyLM语料库[Warstadt等人，2023]及其扰动（不可能）版本上训练了GPT-2 Transformer模型[Radford等人，2019]，并表明，在不可能语言上训练的模型收敛更慢，并且在保留数据上最终得到略高的困惑度，这表明学习不可能语言更加困难。然而，仅基于困惑度的结果有些难以解释（差多少才构成学习失败？），并且在其他语言上的后续研究显示出更混合的结果[Ziv等人，2026；Yang等人，2025]。更重要的是，在低困惑度和不可能性之间没有理论驱动的联系。在第3节中，我们探讨了两个更具理论性的假设，将LM性能与不可能性联系起来。⁴

⁴我们注意到Xu等人（2026）也使用最小对评估了模型的语法敏感性，但他们使用的是类型学上不太可能（而非不可能）的语言，这使得他们的结果不太适用于确定不可能性与LM性能之间的连接假设。

虽然本研究的主要目标是测试这些更明确的连接假设，但我们也会次要地研究我们的结果如何与两个先前的不可能性度量——困惑度和mm-局部熵——相关联。Someya等人（2025）提出了mm-局部熵作为一种信息论度量来表征不可能语言。他们将mm-局部熵定义为给定大小为m−1的上下文时下一个符号的熵，并使用在类似于Kallini等人（2024）的扰动语料库上训练的n-gram模型对其进行估计。他们展示了mm-局部熵（当m=4时最强）与在不同不可能语言上训练的Transformer模型困惑度之间存在强正相关，并得出结论：Transformer表现出一种信息局部性偏差，驱动了Kallini等人的不可能性层级。

| 语言 | 语法示例 | 非语法示例 |
|------|----------|------------|
| 英语 | Rodney goes to this new mall. | Rodney goes to these new mall. |
| 完全反转 | . mall new this to goes RneyRod | . mall new these to goes RneyRod |
| 局部洗牌3 | goes Rodney new to this mall. | goes Rodney new to these mall. |
| 非确定性洗牌 | goes Rod new . toney this mall | goes Rod new . toney these mall |

表2：不同（不可能）语言中BLiMP任务“限定词-名词与形容词的一致性”的最小对示例。

## 3 连接假设

先前关于LM不可能语言的研究主要关注学习动态和保留困惑度，隐含地将较差的压缩视为不可能性的解释或诊断。在本节中，我们认为这一做法在理论上缺乏充分理由。我们提出两个替代的连接假设，它们源于语言学内部相对的理论取向：语法敏感性不足和生成性能不足，并描述它们可能如何偏离困惑度以及彼此偏离。

### 3.1 LM中的语法敏感性

生成语言学家通常非常强调人类发展过程中从有限数据习得语言的挑战[Chomsky，1966；Chomsky，1980]。例如，Chomsky（1980）声称，学习者可用的语言输入不足以确定正确的语法概括，除非有强烈的、语言特定的归纳偏好。在这种观点下，不可能语言之所以不可能，是因为即使有大量接触，学习者也无法可靠地习得区分语法和非语法字符串所需的抽象语法区别[Moro，2008]。如果这一主张正确，那么在不可能语言上训练的模型应该相对于在自然语言上训练的模型表现出对语言结构的被动敏感性的持久缺陷，从而解释这些语言为何未出现。

评估LM语法良性敏感性最广泛使用且最成功的方法是使用像BLiMP这样的最小对数据集[Warstadt等人，2020]。具体来说，将最小差异字符串（一个语法、一个非语法）与困惑度进行比较，困惑度较低的被视为模型偏好的变体。使用最小对考虑了句子概率的“噪声信道”性质[Hu等人，2026；Levy，2008]，该性质将较低值分配给不常见的语法字符串，而非那些接近常见语法字符串的非语法字符串。

图1：在英语和不可能语言上训练的模型的BLiMP任务准确率与4-局部熵的相关性（参见附录B，了解模型准确率与困惑度的类似图表，拟合较差）。彩色点和灰色线显示单个任务的准确率和最佳拟合线，X表示每个语言的平均值（顶部标有来自表1的缩写）。模型显示随着4-局部熵增加，准确率呈适度的线性下降（拟合的黑线）。这种下降对任务局部性不敏感：在英语中5-gram模型解决得很好的任务几乎表现出相同的下降率。

当Transformer学习"不可能"语言时，它们学到了什么？

相似文章

发展性方法揭示神经语言模型的统计学习：Transformer从最抽象的统计模式中泛化

Transformer语言模型中情境建模与心理化的发育轨迹

基于Transformer的语言模型在垂直领域中的应用：架构、应用与批判性评估

Transformer之药

@_albertgu：Transformer 更擅长复制，而 RNN 更擅长建模“承载意义的词——名词、动词和形容词……”

提交意见反馈