探究大语言模型中的最简阶段结构:通用依存关系无法表达的内容

arXiv cs.CL 论文

摘要

本文研究大语言模型是否编码了通用依存关系(UD)无法捕捉的句法抽象(如阶段边界),通过在wh-移动刺激上设计UD距离不变的结构探针,在13个LLM中发现了阶段结构表示的证据,且这些表示具有因果活性。

arXiv:2605.26431v1 公告类型:新 摘要:结构探针训练于通用依存关系(UD)上,而UD不编码诸如阶段边界或阶段内部粘合性等形式句法抽象。大语言模型(LLM)是否编码了这些抽象仍是一个开放问题,而基于UD的探针由于设计原因无法回答。我们评估了在wh-移动刺激上的结构探针,这些刺激中UD距离在不同条件下保持不变——因此任何非零效应都反映了UD之外的结构。三种条件——裸小句、不定式和限定式——按wh-元素穿越的最简方案(MP)阶段边界数量排序。 在来自四个家族的13个LLM中,我们发现了跨从句对上的阶段计数梯度(12/13模型)以及一个从句内对上的13/13符号不对称性,该从句内对的UD距离在所有条件下相同——后者具体由阶段内部粘合性预测,这是UD在设计上不可见的一个MP抽象。激活修补证实这些表示在12/13模型中具有因果活性。这些发现表明,分布式预训练可以诱导出与形式句法抽象对齐的表示,这些抽象超出了基于标注的探针所能触及的范围;基于UD的探针提供了句法编码的下界,而非上界。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:04

# 探究大型语言模型中的最简方案语段结构:普遍依存无法表达的内容  
来源:https://arxiv.org/html/2605.26431  
Yuanhao Chen 达特茅斯学院 yc\.th@dartmouth\.edu  
&  
Peter Chin 达特茅斯学院 pc@dartmouth\.edu  

###### 摘要  
结构探测通常基于普遍依存(Universal Dependencies,UD)进行训练,而UD并不编码语段边界或语段内部凝聚力等形式句法抽象。大型语言模型(LLM)是否编码这些内容仍是一个悬而未决的问题,而基于UD的探测因其构建方式本身无法回答。我们在wh-移位刺激上评估结构探测,其中UD距离在设计上跨条件保持不变——因此任何非零效应都反映了超越UD的结构。三种条件——裸小句、不定式和限定句——按wh-成分跨越的最简方案语段边界数量排序。在来自四个家族的13个LLM中,我们在跨从句对上发现了语段计数梯度(12/13个模型),并在从句内对上发现了13/13的符号不对称性,后者的UD距离跨条件完全相同——后者正是由语段内部凝聚力预测的,而UD按构建方式无法捕捉这一最简方案抽象。激活补丁实验证实这些表征在12/13个模型中具有因果活跃性。这些发现表明,分布预训练可以诱导出与超越基于标注探测范围的形式句法抽象相一致的表征;基于UD的探测提供了句法编码的下界,而非上界。  

# 探究大型语言模型中的最简方案语段结构:普遍依存无法表达的内容  
Yuanhao Chen  
达特茅斯学院  
yc\.th@dartmouth\.edu  
Peter Chin  
达特茅斯学院  
pc@dartmouth\.edu  

## 1 引言  
结构探测已经证实,大型语言模型(LLM)在其隐藏表征中编码了句法结构(Hewitt and Manning,2019 (https://arxiv.org/html/2605.26431#bib.bib12);Manning et al.,2020 (https://arxiv.org/html/2605.26431#bib.bib19))。这些探测以普遍依存(UD)树距离作为黄金标准进行训练——这是一致且广泛适用的标注,但并非生成语法。LLM是否编码语段边界、语段内部凝聚力等形式句法抽象仍是一个悬而未决的问题,而基于UD的探测因其构建方式本身无法回答。本文在wh-移位刺激上评估结构探测,这些刺激在设计上使UD距离跨条件保持不变(第3.1节 (https://arxiv.org/html/2605.26431#S3.SS1))。三种条件——裸小句、不定式和限定句——按wh-成分跨越的语段边界数量排序,提供了对LLM表征中语段结构的分级检验。在来自四个家族的所有13个LLM中,我们发现嵌入主语和嵌入动词之间的结构探测距离跨条件翻转符号:在限定条件下小于基线,在不定式中更大。没有任何表层属性可以预测这一点:两个词之间的UD距离在每个条件中恰好是一条边;线性词距离预测限定式没有差异(在两个条件中,裸小句和限定式中两个词都是相邻的);而单调结构复杂性解释则预测两个非基线条件下的距离都更大。这一模式反而由语段内部凝聚力预测——这是一种最简方案(MP)抽象,按构建方式对UD不可见(第4.2节 (https://arxiv.org/html/2605.26431#S4.SS2))——这为LLM中存在超越基于标注探测范围的形式句法表征提供了证据。  

我们做出三项贡献:  

1. **具有不变UD距离的语段结构探测。** 我们设计了wh-移位刺激,其中UD距离跨条件保持恒定,确保探测效应反映超越UD的结构。在来自四个家族的13个LLM中,我们发现了语段计数梯度(在规范层报告下,12/13个模型中β_fin > β_inf > 0;第3.3节 (https://arxiv.org/html/2605.26431#S3.SS3) 和第4.1节 (https://arxiv.org/html/2605.26431#S4.SS1))以及13/13的esubj-evb符号不对称性——这正是由MP语段结构预测的,且按构建方式任何基于UD的探测均无法访问(第4.2节 (https://arxiv.org/html/2605.26431#S4.SS2))。  

2. **规范层报告法。** 我们引入了规范层报告法:将所有对比锚定在最大化最可靠对比的层上,消除了先前结构探测工作中未控制的每个对比的自由度。在此更严格的标准下,语段计数梯度在12/13个模型中成立;唯一的失败模式会被每个对比峰值报告所掩盖。  

3. **因果验证。** 我们表明探测识别出的表征在计算上是活跃的:在嵌入主语位置上进行激活补丁会按预测方向改变探测距离,在12/13个模型中如此,直接回应了Agarwal等人(2025 (https://arxiv.org/html/2605.26431#bib.bib1))关于探测怀疑主义的担忧。  

## 2 背景  
#### 语段理论。  
我们在语段理论的框架下处理从句结构(Chomsky,2000 (https://arxiv.org/html/2605.26431#bib.bib6),2001 (https://arxiv.org/html/2605.26431#bib.bib7))。一个*语段*是一个句法域,一旦语段完成,其补足域对更高层的推导操作变得不可访问。英语中的两个语段中心语是v⁰(投射vP的轻动词中心语)和C(CP的中心语)。因此,一个限定嵌入从句在其嵌入动词之上引入两个语段(vP和CP);不定式TP引入一个(vP);裸小句补语则不引入额外语段。语段不可渗透条件(PIC)将跨语段操作限制在语段边缘上的成分(Chomsky,2001 (https://arxiv.org/html/2605.26431#bib.bib7)),迫使连续循环的wh-移位经过每个语段边缘(Urk,2020 (https://arxiv.org/html/2605.26431#bib.bib29))。该框架的两个预测驱动了我们的实验设计。  
wh-位置(移位后主句Spec,CP)与嵌入动词补语处的基位wh-副本之间的语段边界数量,随补语类型而变化:bare < inf < fin。  
此外,语段边缘对于PIC前的操作具有内部凝聚力:一个语段内的成分共享局部域状态,并且在推导中作为单元拼出(Uriagereka,1999 (https://arxiv.org/html/2605.26431#bib.bib27),2012 (https://arxiv.org/html/2605.26431#bib.bib28);Fox & Pesetsky,2005 (https://arxiv.org/html/2605.26431#bib.bib9))。因此,与跨语段对相比,语段内部对在模型表征中应表现出不同的几何关系。  

## 3 方法  
#### 3.1 刺激  
我们构建了三类wh-问句,嵌入补语类型不同:裸小句(如 *Who did you see make a mess?*)、不定式(如 *Who did you see make a mess?* 实际上与裸小句相同?注意原文区分:bare small clause如 *Who did you see make a mess?*,infinitival如 *Who did you ask to make a mess?*,finite如 *Who did you say made a mess?*),以及限定句(finite)。  
关键属性:嵌入主语(esubj)与嵌入动词(evb)之间的UD距离为1条边(nsubj关系),在所有条件中均如此。嵌入主语与主句动词之间的UD距离也跨条件相同。通过设计,任何跨条件差异都不能归因于UD距离,而必须反映更抽象的结构属性。  

#### 3.2 探测  
我们使用Hewitt和Manning(2019)的线性结构探测:一个双线性变换作用于每对词的表征,预测UD树距离(或在此实验中,预测条件特定的距离偏移)。对于每个条件,我们估计系数β(条件相对于基线的距离偏移)。  

#### 3.3 规范层报告法  
先前工作通常为每个对比单独选取最大化效应的层。为减少自由度,我们引入规范层报告法:将给定对比对的效应锚定在最大化最可靠对比的层上(在此为β_fin)。所有其他条件(如β_inf)在该同一层进行评估。这提供了更严格的检验。  

## 4 结果  
### 4.1 跨从句对:语段计数梯度  
我们在wh-esubj对(嵌入主语与主句wh-位置)上评估β_fin和β_inf。UD距离在此对上跨条件相同。我们预测β_fin > β_inf > 0。  
在13个模型中的12个,β_fin > β_inf > 0在规范层成立。该梯度的稳健性按模型规模缩放但存在异质性。细节见图2、图3和表1。  

图2:每个模型β_fin(l)和β_inf(l)在wh-esubj上的层剖面。小实心标记表示FDR显著层(α=0.05);较大的白边标记是预测方向上的每对比峰值。  

图3:每个模型在wh-esubj对上的峰值β与规范层β,附95%聚类自举置信区间。β_fin在其峰值层(按构造为规范层)显示。β_inf同时在其自身峰值(空心标记)和L*(实心标记)处显示。  

表1:wh-esubj对上规范层报告下的语段计数梯度总结。L*是规范层(最大化β_fin的层)。两个β列给出L*处的自举均值效应,附95%聚类自举置信区间。“FDR+层”计数了OLS估计的β_fin在wh-esubj上为正值且在α=0.05下通过Benjamini-Hochberg校正显著的层数。  

在wh-esubj对上,存在一个清晰的语段计数梯度:β_fin(限定句减去裸小句)始终为正且较大,而β_inf(不定式减去裸小句)虽为正但较小。中位数比率β_fin峰值/β_inf峰值≈2.18。然而,此摘要对层选择敏感:13个模型中没有一个在β_fin和β_inf上共享相同的峰值层。在规范层报告下(第3.3节),梯度预测在13个模型中的12个成立:β_inf规范>0且方向正确,9/13满足β_inf规范>+0.1(表1)。β_inf的中位数从每对比峰值的+0.37下降到规范层的+0.17,而β_fin的中位数按构造不变;中位数β_fin/β_inf比率从≈2.2上升到≈5.1。因此,不定式信号比限定信号更具层局部性:它在L*处相对于自身峰值大幅衰减(图3)。附录E(https://arxiv.org/html/2605.26431#A5)确认梯度方向在另外两个度量下成立:层中位数和FDR显著正层的比例。  

#### 规范层的唯一失败。  
Qwen-3-4B是wh-esubj上唯一的规范层失败:其β_fin在第10层达到峰值,其中β_inf规范=-0.045(在L*处符号反转),而β_inf自身峰值在第4层(+0.34)。因此,该方法揭示了一个每对比峰值报告会隐藏的差异。  

#### 限定信号的逐层可靠性。  
在wh-esubj上,β_fin规范范围从+0.55(Gemma-3-1B)到+0.99(Gemma-3-27B);β_fin的FDR显著正层的模型中位数比例为94%,13个模型中有5个达到≥97%,最低的是Gemma-3-1B的63%。因此,限定-裸小句对比是一个广泛的逐层信号,而非单层峰值。家族内缩放具有异质性:Gemma家族随规模单调增长(在1B、4B、12B、27B上分别为+0.55、+0.91、+0.96、+0.99),但Llama家族不遵循(Llama-3.2-1B的+0.77超过Llama-3.1-8B的+0.72)。  

### 4.2 从句内部凝聚力:符号不对称  
我们从跨从句对转向从句内对:嵌入主语和嵌入动词(esubj-evb),其UD树距离在每个条件中按设计恰好为1条边(nsubj)(第3.1节)。实证发现是一个稳健的符号不对称:在所有13个模型中,跨越四个架构家族,β_fin峰值<0且β_inf峰值>0(esubj-evb),峰值幅度通常在0.3–0.6范围内(图4,图5给出每个模型的层剖面)。由于两个对比具有相反的预测符号,规范层报告法(第3.3节)在此不适用。  

图4:每个模型在esubj-evb对上的峰值β,附95%聚类自举置信区间。所有13个模型均显示β_fin峰值<0且β_inf峰值>0——13/13的符号不对称。β_fin在其预测方向峰值(arg min_l β_fin(l))处显示;β_inf在其峰值(arg max_l β_inf(l))处显示。模型按不对称幅度(β_inf峰值 - β_fin峰值)降序排列。  

#### 三个观察排除了更简单的解释。  
第一,两个词之间的UD距离在每个条件中为1条边(第3.1节),因此纯UD解码探测会产生β≈0。第二,两个词之间的线性距离在裸小句和限定式中为1个词,但在不定式中为2个词(*to*标记介入)。表层线性距离启发式预测β_inf>0且β_fin≈0;观测到的*负*β_fin不能来自线性距离。第三,单调结构复杂性启发式——“两个词之间的结构越多意味着探测距离越大”——预测β_fin>β_inf>0,因为限定句增加了最多结构而裸小句最少。观测到的*负*β_fin直接反驳了这一预测。  

#### 逐层模式。  
符号不对称并非单层峰值。层剖面(图5)显示,在大多数模型的网络大部分区域中,FDR显著层上β_fin<0且β_inf>0。与跨从句发现一样,该模式在所有四个架构家族中成立。  

图5:每个模型在esubj-evb对上β_fin(l)(限定-裸小句)和β_inf(l)(不定式-裸小句)的层剖面。符号不对称——β_fin<0且β_inf>0——在大多数模型的大部分网络FDR显著层上成立。标记约定同图2。  

#### 从PIC到表征。  
PIC(Chomsky,2000,2001)是对句法推导的约束——它决定了语法可以跨语段边界执行哪些操作——其本身并非关于表征几何的主张。因此,为了连接语段理论与观测到的符号不对称,我们需要一个额外假设。备选方案是语段内部凝聚力:同一已完成语段内的成分作为单元拼出并共享局部域状态,导致比结构深度单独预测的更多共享计算,使其在模型的隐藏状态中表征上更接近。  

#### 三条汇聚的研究线索。  
凝聚力假设得到独立证据的支持。多重拼出模型(Uriagereka,1999 (https://arxiv.org/html/2605.26431#bib.bib27),2012 (https://arxiv.org/html/2605.26431#bib.bib28);Fox & Pesetsky,2005 (https://arxiv.org/html/2605.26431#bib.bib9))将推导视为循环拼出域,作为单元发送到界面。局部域文献(Müller,2011 (https://arxiv.org/html/2605.26431#bib.bib21);Bošković,2007 (https://arxiv.org/html/2605.26431#bib.bib3);Lee-Schoenfeld,2008 (https://arxiv.org/html/2605.26431#bib.bib18);Canac Marquis,2005 (https://arxiv.org/html/2605.26431#bib.bib4))将语段视为一致、格和约束的域,其中成分保持相互可及。而句子处理研究发现,理解者在从句边界处执行额外的整合计算(Just & Carpenter,1980 (https://arxiv.org/html/2605.26431#bib.bib15);Rayner et al.,2000 (https://arxiv.org/html/2605.26431#bib.bib23)),将从句内材料合并成统一表征——这是一个从句收束效应,并非直接关于语段,但与之兼容。

相似文章

多模态大语言模型内部视觉表征的因果探针

arXiv cs.AI

本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架,揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要,并揭示了当前多模态大语言模型在感知与推理之间的脱节。

Polar Probe线性解码LLM中的语义结构

arXiv cs.CL

本文提出了一种Polar Probe,通过在学习的子空间中用距离和方向表示实体关系,从LLM激活中线性恢复语义结构。在算术、视觉场景、家谱、地铁地图和社交互动等多个领域的测试表明,该编码出现在中间层,能泛化到新实体,并对模型预测产生因果影响。