通过统计语法归纳计算化竞争的句法发展成熟理论
摘要
本文提出了一个计算框架,用于测试儿童句法发展中相互竞争的成熟理论,特别是利用统计语法归纳法比较自下而上(bottom-up)与向内(inward)的理论解释。
arXiv:2605.08476v1 公告类型:新文章
摘要:本文关注儿童在第一语言习得过程中以何种顺序习得哪些中间句法范畴。不同的成熟理论对此做出了不同的预测。自下而上的理论(GROWING)认为词汇和屈折结构最先出现,而向内理论(INWARD)则预测儿童能较早地获得与话语相关的范畴。我们通过统计语法归纳法对这些分阶段句法出现的假设进行计算化操作化,探究在输入数据和学习算法保持不变的情况下,每种假设的顺序使哪些内容变得可习得。我们的框架使范畴习得过程变得显式化,并使我们能够探讨在相同条件下,不同的成熟顺序如何塑造可习得的句法结构。基于这一操作化分析,GROWING 理论在三项评估指标上的表现均显著优于 INWARD 理论。
查看缓存全文
缓存时间: 2026/05/12 06:49
# 通过统计语法归纳对句法发展的竞争性成熟理论进行计算操作化 Source: https://arxiv.org/html/2605.08476 Mila Marcheva\-Nash Suchir Salhan Weiwei Sun mmm67@cam\.ac\.uk sas2450@cam\.ac\.uk ws390@cam\.ac\.uk 剑桥大学计算机科学与技术系 ###### 摘要 本文关注儿童在第一语言发展过程中习得了哪些中间句法类别,以及习得的顺序如何。成熟理论(Maturational theories)做出了不同的预测。自下而上的理论(Growing)认为词法和屈折结构首先出现,而向内发展的理论(Inward)则预测早期即可接触到与话语相关的类别。我们使用统计语法归纳(statistical grammar induction)对这种分阶段的句法涌现假设进行了计算操作化,探讨在输入和 learning algorithm 保持不变的情况下,每种提出的顺序使得哪些内容可被学习。我们的框架使类别习得过程显式化,从而让我们能够探索不同的成熟顺序如何在相同条件下塑造可学习的结构。基于这种操作化,Growing 理论在三个评估指标上显著优于 Inward 理论。 关键词:语言习得;句法发展;语法归纳;成熟 ## 引言 第一语言习得(FLA)的一个核心问题是儿童如何发展出类似成人的语法系统 (?, ?)。语言学理论在语法类别是由生物学预定的还是逐渐从经验中涌现的问题上存在分歧。生成主义传统中的连续性(Continuity)方法假设所有类别都是先天的且从出生起就可用,这与普遍语法(UG)的理念一致 (?, ?, ?, ?)。成熟理论假设某些句法类别是先天的,但仅在发展的特定阶段才可访问,从而塑造了习得的顺序 (?, ?, ?, ?)。相比之下,涌现论(emergentist)观点强调类别是在认知约束下从输入的模式中涌现出来的 (?, ?, ?)。功能主义、基于用法(usage-based)和建构主义理论与涌现论相一致 (?, ?, ?, ?, ?, ?, ?)。成熟理论和涌现论的共同之处在于都拒绝了连续性,即两种理论都同意成人般的语法能力并非从一开始就具备 (?, ?, ?)。成熟论和涌现论分歧在于阶段性发展的来源:在成熟论中,类别出现的顺序是先天眼编码的,而在涌现论中,顺序由输入和认知约束的相互作用决定。 在成熟论传统中,关于哪些类别最先出现的观点截然不同。自下而上的提议,如 Growing Trees Hypothesis (?, ?),认为词法和屈折类别 (N, V, T) 首先出现,随后是与话语相关的功能类别。向内成熟的提议,如 Inward Growing Spine Hypothesis (?, ?),预测早期可接触到更高层级的话语相关类别,而较低层级的类别则较晚出现。这些假设形式化了在儿童语料库和面向儿童的言语(child-directed speech)语料库中观察到的模式。计算建模可以通过探索提出的发展顺序是否使相同的输入能恢复出不同的语法结构,来补充传统方法。 在本文中,我们引入了一个计算框架,用于在发展上合理的约束下测试有竞争力的分阶段句法类别习得理论。在语法归纳中,统计学习者接收字符串作为输入,并推断出显式的层次结构(即语法),使得类别习得的顺序变得可观察而非仅仅假定 (?, ?)。通过控制类别变得可访问的顺序,我们在保持输入和 learning algorithm 不变的情况下,模拟了不同成熟理论预测的发展轨迹。比较受控条件下产生的诱导语法,揭示了不同的成熟顺序如何在相同的输入和条件下限制可学习的内容。 我们提供了一套实验方案来比较两种成熟假设:Growing 和 Inward。我们使用形态标记化的面向儿童的言语作为发展上合理的输入,反映儿童已知对其敏感的语言单位 (?, ?, ?)。在广泛的条件下,我们发现与连续性方法相比,分阶段类别习得具有实证优势,特别是在 Growing 课程下。虽然 Growing 和 Inward 课程最终都收敛到相当的全局性能,但 Growing 在所有查询指标(F1、Jensen-Shannon 散度和儿童言语句子对数似然)上显著优于 Inward。在学习过程层面,Growing 有利于短语结构的早期稳定,而 Inward 在某些从句级别类别上产生较低的散度。总之,这些结果与相应成熟理论的定性预测一致,并证明了我们的方法在系统探索分阶段句法发展的替代轨迹方面的效用。 框架和测试的分阶段语法可在 GitHub 上获取 111https://github.com/milamarcheva/maturational_grammar_induction。虽然我们对该框架在两种成熟假设上进行了试点研究,但如果开发了适当的分阶段课程,该框架可以扩展到涌现论假设。 1\. 准备分阶段语法 Oracle PCFG:符号部分(规则)+ 概率部分 将符号部分拆分为成熟阶段 2\. 初始阶段 设置阶段间转移参数 $s_p, s_l, \eta$;在第一阶段运行 VB 输出:第一阶段规则的估计概率 评估:$G_1$,截至阶段 1 的语法 3\. 对后续每个阶段重复 添加新可用的符号规则 更新先验:现有规则 $P_k \mapsto \alpha_{k+1}$;新规则通过 $\eta$ 获得质量 为当前分阶段语法运行 VB 重估计 输出:迄今为止所有可用规则的概率 评估:$G_i$,截至阶段 $i$ 的语法 next stage 4\. 所有阶段结束后 输出:整个符号语法的概率 评估:$G$,最终语法 图 1:统计学习者对分阶段句法发展建模的流水线,详见方法论 (https://arxiv.org/html/2605.08476#Sx3)。 ## 背景 ### 句法发展 FLA 的长期传统将句法发展特征化为分阶段的,遵循单字发声、未标记的两字短语、最终带有日益复杂的形态句法结构的短语的轨迹 (?, ?)。句法习得的生成主义观点集中在功能类别何时以及如何被习得。关于假定属于普遍语法(UG)的功能类别何时可用的问题,主要有两派思想。Continuity (?, ?) 认为 UG 中的所有信息从一开始就可用。因此,儿童初始语法的功能结构与成人语法没有显著差异。Maturation (?, ?, ?) 认为儿童最初并不能完全获得来自 UG 的语法类别和原则,而是逐步获得访问权限。因此,UG 不仅规定了层次结构和功能类别,还规定了它们对习得者变得可用的顺序。在成熟论下,UG 给定的层次结构是固定的,但儿童逐渐获得对该结构更多部分的访问权限。上述所有假设都假设功能类别具有固定的粒度。因此,为了完整性,我们还必须提及新涌现论(neo-emergentism),这是一种句法习得假设,认为功能类别粒度(灵活)的增加是句法习得的关键方面 (?, ?, ?, ?)。 就习得顺序而言,成熟论可以进一步分解为自下而上和向内顺序(相对于 UG 预定义的脊柱)。自下而上的成熟论认为首先变得可用的类别是那些更接近叶节点的类别。最近结合地图学(cartography)的自下而上方法是 Growing Trees Hypothesis (?, ?)。它区分了 3 个阶段:在阶段 1,只有 IP/TP 和 VP 可用(允许屈折和 A(rgument)-移位);在阶段 2,较低的左边缘(例如,允许 wh-疑问句)变得可用;最后在阶段 3,整个地图学层次结构变得可用,包括话题化和嵌入。向内成熟的一个例子是 Inward Growing Spine Hypothesis (?, ?),它假定 CP 的早期发展,CP 出现在地图学脊柱的中间。 表 1:句法阶段定义为 Penn Treebank 类别的累积集合。注意,在原始 PTB 中一些标签是 PTs,但由于形态标记化,这里它们是 NTs(例如 NNS, VBG)。 ### 语法归纳 语法归纳(GI)是学习语言数据中潜在层次结构的过程。语法由符号部分(规则)和概率部分(分配给规则的概率)组成。GI 的一个子类型是语法重估计(grammar reestimation) (?, ?),其中符号部分已提供,需要学习的是概率部分。GI 的基础工作依赖于统计方法 (?, ?, ?, ?, ?, ?)。近年来,神经语法归纳被提出作为一种从原始数据中以前所未有的 F1 分数诱导语法的方法 (?, ?)。然而,神经方法的基础性统计模型的可解释性较差。因此,在本文中,我们依赖于统计 GI,具体来说是使用 PCFG 进行语法重估计。 使用 GI 作为语言习得、特别是句法习得的近似值,在文献中有充分的理由 (?, ?);例如 i.a.? (?, ?, ?))。与传统语言学分析相比,GI 的一个关键优势在于,它在一个单一模型中为语料库中的所有句子提供了统一解释,而传统分析往往针对孤立的现象。注意,GI 仍然是一种探索性工具,并没有捕捉到第一语言习得的全部复杂性,因为它抽象掉了非语言线索 (?, ?)。 #### 概率上下文无关语法(PCFG) PCFG 定义为 $G=(NT, \Sigma, R, S, F)$,其中 $NT$ 是非终结符集合,$\Sigma$ 是词汇表,$R$ 是规则,$S$ 是开始符号,$F$ 是规则概率函数。我们区分产生规则和词汇化,因为前者是分阶段句法访问的主要对象。 #### 变分贝叶斯(VB) 统计 GI 通常使用两种估计方法之一:期望最大化(EM) (?, ?) 或变分贝叶斯(VB) (?, ?)。EM 是一种频率学派程序,仅根据数据中的预期计数估计规则概率,而 VB 是 EM 的贝叶斯扩展,引入了规则概率上的先验分布,最常见的是狄利克雷先验 (?, ?, ?)。在 VB 中,每个语法规则都关联一个伪计数参数($\alpha$),该参数影响每次迭代的学习,编码了对规则的先验置信度。较高的值使模型偏向于保留规则,而较低的值允许不受支持的规则在概率上缩小。伪计数允许在早期阶段学到的概率作为先验向前携带,同时仍然允许学习新规则。 ## 方法论 图 1 (https://arxiv.org/html/2605.08476#Sx1.F1) 说明了我们对分阶段句法发展的计算操作化:成熟假设被翻译为由符号语法的规则子集组成的课程,习得被近似为贝叶斯语法归纳。 ### 受习得启发的课程 为了将对成熟和 CP 时机的理论主张翻译成基于课程的语法归纳问题,我们定义了两个课程,以近似 Growing 和 Inward 成熟假设所规定的对句法类别的增量访问。之前 (?) 使用通用词性(UPOS)标签 (?, ?) 处理过这个问题,但我们依赖更详细的 Penn Treebank(PTB)标签集 (?, ?)。PTB 标签集编码了短语类型(例如 VP, NP, PP, INTJ)和功能材料的存在(例如 AUX, MD, TO, COP, 补语化词, wh-短语),这使得我们可以定义更细粒度的认知启发式课程。 阶段在表 1 (https://arxiv.org/html/2605.08476#Sx2.T1) 中针对 Penn Treebank 标签进行累积定义。注意,我们定义的阶段是对成熟理论的近似,可以在同一流水线中替换阶段的替代定义。 通过按表 1 (https://arxiv.org/html/2605.08476#Sx2.T1) 中的顺序排列阶段构建的两个成熟课程如下所示,以及 Continuity 条件的明确陈述: - Growing:base Growing, VP, TP, CP, INTJ - Inward:base Inward, base Growing, CP, TP, VP - Continuity:所有规则从一开始就可用 ### 通过 VB 实现成熟句法发展 成熟句法发展假定句法知识以明显的阶段逐步变得可访问(参考表 1 (https://arxiv.org/html/2605.08476#Sx2.T1) 获取这些阶段的 PTB 近似值)。使用 VB,我们可以分阶段进行学习,越来越多的规则变得可用。随着每个阶段引入新规则,伪计数允许早期阶段学到的概率作为先验向前携带,同时仍然允许学习新规则。我们将现有规则和新规则的伪计数公式化为公式 1 (https://arxiv.org/html/2605.08476#Sx3.E1),这允许随着学习空间的扩展,信息在各阶段间携带。阶段 $k$ 完成后,后验平均规则概率 $P^k$ 转换为阶段 $k+1$ 中 $x \in X$ 的产生规则的狄利克雷先验向量 $\alpha^{k+1}$,公式如下: $\alpha_{i,x}^{k+1} = \begin{cases} N_k s_p p_i^k + 0.1, & 1 \le i \le N_k \\ N_k s_l \frac{\eta}{|X_{k+1} - X_k|} + 0.1, & N_k < i \le |X_{k+1}| \end{cases}$ 其中 $N_k$ 是句子平均长度 > 1 的句子数量。数据集包含 126,152 个句子及其对应的解析树。CHILDES-TB 444https://sites.socsci.uci.edu/~lpearl/CoLaLab/CHILDESTreebank/ 基于五个语料库中面向儿童的言语,涵盖 110 名年龄在 6 个月至 6 岁之间的儿童。 ### Oracle 语法 我们从形态标记化的 CHILDES-TB 解析树中提取 PCFG,作为评估中的 Oracle(金标准)语法,而其符号部分则作为 GI 系统的初始语法。Oracle 语法是一种近似成人能力的 PTB 风格 PCFG。我们并不声称该 PCFG 是成人心理语法的绝对表示;相反,它提供了一个语言学上可解释的目标,以便比较不同的分阶段访问假设。我们通过最小频率限制产生规则,并选择保持 100% 解析覆盖率的语法中最小的那个。在 $f_m=7$ 时,Oracle 语法由 1,387 条产生规则和 8,563 个词汇化组成,词汇表包含 6,273 个单词。 ### 评估 除了使用 CHILDES-TB 解析树作为金标准(基于此计算未标记 F1 分数)外,我们还提供了分布指标,允许将所学语法的分布与 Oracle 语法的分布进行比较。我们使用诱导的语法解析 CHILDES-TB 中随机选择的 1,000 个解析树。然后,我们按照 PARSEVAL (?, ?) 的实施方式,计算来自相似文章
发展性方法揭示神经语言模型的统计学习:Transformer从最抽象的统计模式中泛化
本文采用发展性方法研究神经语言模型(特别是Transformer)如何从人工语法中学习统计模式,发现它们首先获取全局抽象统计信息,然后学习局部依赖关系,并在早期出现过度泛化。
基于图柯尔莫哥洛夫复杂度的逻辑语法归纳:用于临床数据自愈完整性的神经符号框架
提出了Logic-GNN,一种神经符号框架,通过时序图神经网络和图柯尔莫哥洛夫复杂度归纳出临床记录的符号语法,从而能够将数据录入错误检测为语法违规并进行纠正。该系统在一个大型医疗数据集上取得了0.94的F1分数,性能比现有最佳方法提升12%。
Grokers:类型化知识图谱上的自底向上归纳理解与写时智能
本文介绍了Grokers,一种对类型化知识图谱进行自底向上归纳理解的架构,它将智能推向写入时,消除了查询时的LM调用,并证明了关于字节同一性、累积单调性和双遍历顺序的三个形式化定理。
基于智能体的形态交替模式演化模型
本文介绍了使用多智能体模拟语言中形态交替模式(如'go/went')的出现,并利用AI历史语言学家(基于大语言模型)评估演化形态相对于真实语言的合理性。
推理者还是翻译者?税法中的污染感知评估与神经符号鲁棒性
本文实证研究了LLMs在税法中的法律推理,表明数据污染会夸大性能,而神经符号混合系统比单体LLMs提供更可靠和稳健的泛化能力。