图传导锐化:在节点分类中利用无标签预测

arXiv cs.LG 论文

摘要

本文介绍了传导锐化(TS),一种用于半监督节点分类的损失级修改,它最小化无标签节点上的预测熵,同时平衡有标签节点的效果,在不改变架构的情况下实现一致的性能提升。

arXiv:2605.20248v1 公告类型:新 摘要:在传导设置中,虽然完整图已观测到但节点标签仅部分可用,半监督节点分类的进展主要集中于架构创新。本文重新审视了一个正交方向:训练目标。我们从简单观察出发:传导模型在训练期间会对每个节点生成预测,包括无标签节点。这些无标签节点的预测可能包含有用的训练信号,但标准监督目标因缺乏真实标签而丢弃它们。受交叉熵分解为标签相关的对齐项和标签无关的熵项的启发,我们提出将预测置信度作为在无标签情况下提取该信号的自然方式。这推动了传导锐化(TS):一种损失级修改,它最小化无标签节点上的预测熵,同时平衡有标签节点上的效果。我们在多种节点分类基准上评估传导锐化,观察到在不需对骨干架构做任何更改的情况下,性能持续提升。代码见 https://github.com/transductive-sharpening/tunedGNN。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:12

# 利用节点分类中的无标签预测
来源:https://arxiv.org/html/2605.20248
## 图传导锐化:利用节点分类中的无标签预测

Brown Zaz 剑桥大学 jb2650@cl\.cam\.ac\.uk &Mar Gonzàlez I Catal๹footnotemark:1 剑桥大学 mg2211@cl\.cam\.ac\.uk &Ferran Hernandez Caralt 剑桥大学 fh455@cl\.cam\.ac\.uk &Moshe Eliasof 剑桥大学 me532@cl\.cam\.ac\.uk &Pietro Liò 剑桥大学 pl219@cl\.cam\.ac\.uk

###### 摘要

在传导式学习场景中,虽然可以观察到完整的图结构,但节点标签仅部分可用。半监督节点分类的进展主要集中于架构创新。在本文中,我们重新审视了一个正交的维度:训练目标。我们从简单的观察出发:在训练过程中,传导式模型会对每个节点(包括无标签节点)产生预测。这些无标签节点的预测可能包含有用的训练信号,但标准的监督式目标函数会因为缺乏真实标签而将其丢弃。受交叉熵损失分解为依赖于标签的对齐项和不依赖于标签的熵项这一事实的启发,我们提出将预测置信度作为在无标签情况下提取该信号的自然方式。这引出了传导锐化(TS):一种损失层面的修改,旨在最小化无标签节点上的预测熵,同时在有标签节点上平衡这一效应。我们在广泛的节点分类基准上评估了传导锐化方法,观察到在不需要改变基础架构的情况下,性能得到了一致的提升。代码可在 https://github.com/transductive-sharpening/tunedGNN 获取。

## 1 引言

图神经网络(GNN)[13 (https://arxiv.org/html/2605.20248#bib.bib5),14 (https://arxiv.org/html/2605.20248#bib.bib8),4 (https://arxiv.org/html/2605.20248#bib.bib6),7 (https://arxiv.org/html/2605.20248#bib.bib7),21 (https://arxiv.org/html/2605.20248#bib.bib32),42 (https://arxiv.org/html/2605.20248#bib.bib30),17 (https://arxiv.org/html/2605.20248#bib.bib27),12 (https://arxiv.org/html/2605.20248#bib.bib23)]已成为节点分类任务的主流方法,尤其是在传导式学习场景[3 (https://arxiv.org/html/2605.20248#bib.bib3)]中,即观察到完整的图结构但仅有部分节点标签可用。在过去几年中,该领域的进展主要由架构创新驱动,如日益复杂的消息传递机制[16 (https://arxiv.org/html/2605.20248#bib.bib29),57 (https://arxiv.org/html/2605.20248#bib.bib33),1 (https://arxiv.org/html/2605.20248#bib.bib39),31 (https://arxiv.org/html/2605.20248#bib.bib26),24 (https://arxiv.org/html/2605.20248#bib.bib2)]和基于Transformer的模型[19 (https://arxiv.org/html/2605.20248#bib.bib28)]。相比之下,训练目标的设计受到的关注相对较少,尽管它在塑造模型性能方面起着核心作用。

在传导式学习场景中,模型在每个训练步骤都会对图中的所有节点(包括无标签节点)产生预测,然而训练目标只应用于有标签节点,因为标准的监督损失需要真实标签。但是,一旦模型开始形成可靠且自信的预测,这些预测本身可能为标签未知的节点提供有用的学习信号。我们基于这一观察,利用这些预测,鼓励对无标签节点保持自信,同时防止对有标签节点过度自信。

我们引入了传导锐化(TS),这是一种简单而优雅的损失层面修改,实现了上述思想。该方法引入了一个单一的超参数,可以应用于任何GNN架构之上。实验证明,它在各种模型和基准测试中都能持续提升性能。

为了理解TS所引发的行为,我们研究了锐化系数λ\\lambda的影响,并分析了该目标如何改变图中预测置信度的分布。经验上,我们发现适度的正值λ\\lambda能带来最可靠的提升,且TS能按照目标设计将置信度重新分配给无标签节点。

我们的结果揭示了一个简单但强大的原则:训练过程中产生的预测(通常在标签不可用时被丢弃)可以直接用于改进学习。虽然我们在传导式图学习的背景下研究了这一想法,但它自然可以扩展到其他场景,这表明了一种在不增加模型复杂度的情况下改进学习算法的通用途径。

#### 贡献.

我们的主要贡献如下:

- • 我们引入了*传导锐化*(TS),这是一种简单的、与架构无关的损失修改,将无标签节点上的预测转化为传导式节点分类的直接训练信号。
- • 我们展示了TS提供了强大的性能-复杂度权衡:它改进了13个节点分类基准上的标准GNN和MLP基线,同时仅增加一个标量超参数,且无需改变架构。
- • 我们研究了锐化系数λ\\lambda的作用,表明TS在多个正值范围内仍然有效,且单一保守的设置能在不同模型和数据集上保留大部分收益。

## 2 背景与设定

在本节中,我们提供与工作相关的背景材料。

#### 记号.

我们用ΔC−1={p∈R≥0C:∑i=1Cpi=1}\\Delta^\{C\-1\}=\\\{p\\in\\mathbb\{R\}^\{C\}\_\{\\geq 0\}:\\sum\_\{i=1\}^\{C\}p\_\{i\}=1\\\}表示CC类上的概率单纯形。整个过程中,标签用独热向量yv∈{0,1}Cy\_\{v\}\\in\\\{0,1\\\}^\{C\}表示,其中yv,iy\_\{v,i\}指示节点vv是否属于类别ii。

节点分类任务包括根据节点特征和图结构为图中的每个节点分配一个标签[21 (https://arxiv.org/html/2605.20248#bib.bib32)]。在传导式学习场景中,训练时可获得完整的图结构和节点特征,但仅能观察到部分节点的标签,目标是预测其余节点的标签。

###### 定义 1 (传导式节点分类).

设G=(V,E)G=(V,E)为一个图,具有节点特征X∈R|V|×dX\\in\\mathbb\{R\}^{\|V\|\\times d}。每个节点v∈Vv\\in V都有一个相关标签yv∈{0,1}Cy\_\{v\}\\in\\\{0,1\\\}^\{C\},仅对子集VL⊂VV\_\{L\}\\subset V(称为*有标签节点*)可观测。我们将VU:=V∖VLV\_\{U\}:=V\\setminus V\_\{L\}记为剩余节点(称为*无标签节点*)。目标是学习一个模型,利用完整的图GG、所有节点特征XX以及在VLV\_\{L\}上观察到的标签来预测VUV\_\{U\}中节点的标签。

从标准训练目标到增强训练目标。传导式节点分类的一种常见方法是在有标签节点子集上以监督方式训练模型,然后使用该模型为无标签节点生成预测。

在实践中,模型为每个节点v∈Vv\\in V生成一个logit向量zv∈RCz\_\{v\}\\in\\mathbb\{R\}^\{C\}和相应的概率分布pv=softmax(zv)∈ΔC−1p\_\{v\}=\\mathrm\{softmax\}\(z\_\{v\}\)\\in\\Delta^\{C\-1\}。

模型使用仅应用于有标签节点的交叉熵损失进行训练:

Lsup=−∑v∈VL∑i=1Cyv,ilog⁡pv,i。\\mathcal\{L\}\_\{\\mathrm\{sup\}\}=\-\\sum\_\{v\\in V\_\{L\}\}\\sum\_\{i=1\}^\{C\}y\_\{v,i\}\\log p\_\{v,i\}。(1)
这一目标使模型的预测与真实标签对齐,但忽略了在无标签节点VUV\_\{U\}上基于特征生成的输出,尽管模型在处理完整图时每个训练步骤都会计算这些输出。

尽管由于缺乏标签而无法对无标签节点评估损失,但训练过程中模型产生的预测可能仍包含可利用的有用信息。这提示我们在目标中添加一个针对无标签节点的额外项,类似于[15 (https://arxiv.org/html/2605.20248#bib.bib34)]。

###### 定义 2 (增强的传导式目标).

考虑一个传导式节点分类问题,其中有标签节点VLV\_\{L\}和无标签节点VUV\_\{U\}。设pv∈ΔC−1p\_\{v\}\\in\\Delta^\{C\-1\}表示节点vv的预测分布。增强的传导式目标是任何具有以下形式的训练目标

L=Lsup+f({pv}v∈VU),\\mathcal\{L\}=\\mathcal\{L\}\_\{\\mathrm\{sup\}\}\+f\\bigl\(\\\{p\_\{v\}\\\}\_\{v\\in V\_\{U\}\}\\bigr\),(2)其中f:(ΔC−1)|VU|→Rf:(\\Delta^\{C\-1\})^{\|V\_\{U\|\}\\to\\mathbb\{R\}从模型在无标签节点VUV\_\{U\}上的预测中提取学习信号。

定义2 (https://arxiv.org/html/2605.20248#Thmdefinition2)突出了这一框架的灵活性:选择不同的ff会导致从无标签预测中提取学习信号的不同方式。例如,在已知平衡类分布的二分类问题中,ff可以惩罚训练期间无标签节点上预测分布与平衡分布的偏差。

虽然有用,但这个例子依赖于可能并非普遍可用的信息。核心问题在于,我们是否能够以原则性、任务无关的方式选择ff,使其广泛适用于不同的传导式节点分类问题。

基于不确定性的学习信号。设计ff的一个自然起点是检查监督损失本身的结构。特别地,交叉熵可以进行以下分解:

###### 引理 1 (交叉熵分解).

对于任意目标分布yy和预测pp,交叉熵损失可以写作

LCE(y,p)=H(p)+∑i=1C(pi−yi)log⁡pi,\\mathcal\{L\}\_\{\\mathrm\{CE\}\}\(y,p\)=H\(p\)\+\\sum\_\{i=1\}^\{C\}\(p\_\{i\}\-y\_\{i\}\)\\log p\_\{i\},(3)其中H(p)=−∑ipilog⁡piH\(p\)=\-\\sum\_\{i\}p\_\{i\}\\log p\_\{i\}表示香农熵[36 (https://arxiv.org/html/2605.20248#bib.bib10)]。

引理1 (https://arxiv.org/html/2605.20248#Thmlemma1)的证明见附录F (https://arxiv.org/html/2605.20248#A6)。

第二项显式依赖于目标标签¹¹对于该方法的贝叶斯视角,请参考[15 (https://arxiv.org/html/2605.20248#bib.bib34)],而熵项H(p)H(p)仅依赖于模型的预测。这种分离揭示了监督目标的一部分天生与标签无关,因此可以对任何节点进行评估。

这为ff的选择提供了一个有原则的类别:仅依赖于预测分布并捕捉模型预测不确定性相关属性的函数,因为最小化这些函数也应该隐式地最小化原始的交叉熵损失。

在这项工作中,我们通过训练目标显式控制有标签和无标签节点上的预测置信度,采用了这一视角的一个简单实例。

## 3 面向图学习的传导锐化

在本节中,我们介绍*传导锐化*(TS),这是一种针对传导式节点分类的损失层面修改。

### 3.1 传导锐化目标

引理1 (https://arxiv.org/html/2605.20248#Thmlemma1)激发了一种利用无标签节点的无标签方式:通过目标直接塑造其预测分布的不确定性。我们通过在监督损失上添加一个针对VUV\_\{U\}的不确定性项来实例化这一原则。

对无标签节点项的一个自然选择是鼓励无标签节点上的低不确定性预测,而不以其他方式修改监督目标。然而,天真地在所有位置最小化不确定性可能导致过度自信且校准不良的模型。为了解决这个问题,我们引入了一个简单的对称目标,该目标锐化无标签节点上的预测,同时在有标签节点上平衡这一效应。

###### 定义 3 (通用传导锐化目标).

设R:ΔC−1→R:\\Delta^\{C\-1\}\\to\\mathbb\{R\}为概率单纯形上的一个函数,用于衡量预测分布的不确定性。对于为每个节点v∈Vv\\in V产生概率向量pv∈ΔC−1p\_\{v\}\\in\\Delta^\{C\-1\}的模型,我们通过下式定义通用传导锐化目标

LR=Lsup+λ⋅1|VU|∑v∈VUR(pv)−λ⋅1|VL|∑v∈VLR(pv),\\mathcal\{L\}\_\{R\}=\\mathcal\{L\}\_\{\\mathrm\{sup\}\}\+\\lambda\\cdot\\frac\{1\}\{\|V\_\{U\}\|\}\\sum\_\{v\\in V\_\{U\}\}R\(p\_\{v\}\)\-\\lambda\\cdot\\frac\{1\}\{\|V\_\{L\}\|\}\\sum\_\{v\\in V\_\{L\}\}R\(p\_\{v\}\),(4)其中λ∈R\\lambda\\in\\mathbb\{R\}控制锐化的影响。

这种形式捕捉了两个互补的效应。在无标签节点上,最小化不确定性鼓励自信的预测[15 (https://arxiv.org/html/2605.20248#bib.bib34)],使模型能够利用自身的输出作为学习信号。在有标签节点上,最大化不确定性则对抗过度自信,有助于防止对训练数据的过拟合[29 (https://arxiv.org/html/2605.20248#bib.bib57)]。

### 3.2 实现不确定性函数

定义3 (https://arxiv.org/html/2605.20248#Thmdefinition3)中引入的形式取决于函数RR的选择,它决定了训练过程中预测置信度的塑造方式。RR的一个自然候选是香农熵[36 (https://arxiv.org/html/2605.20248#bib.bib10)],它被广泛用作概率模型中不确定性的度量。

然而,香农熵的对数形式在概率单纯形的边界附近产生无界梯度,这可能导致对自信预测的更新过于激进,进而导致不稳定的训练动态和退化为独热解的趋势。

为了解决这些限制,我们考虑基于Tsallis熵的替代方法。

###### 定义 4 (q=2q=2时的Tsallis熵).

q=2q=2阶的Tsallis熵[41 (https://arxiv.org/html/2605.20248#bib.bib9)],也称为基尼不纯度,定义为

S2(p)=1−∑i=1Cpi2。S\_\{2\}\(p\)=1\-\\sum\_\{i=1\}^\{C\}p\_\{i\}^\{2\}。(5)

Tsallis熵是香农熵的单参数推广,当q=1q=1时退化为香农熵。当q=2q=2时,它保留了相同的定性行为:对自信预测赋予低值,对分散预测赋予高值,但具有简单的二次形式

S2(p)=1−‖p‖22。S\_\{2\}\(p\)=1\-\\\|p\\\|\_\{2\}^\{2\}。因此,最小化S2(p)S\_\{2\}\(p\)等价于最大化预测分布的平方ℓ2\\ell\_\{2\}范数。

我们在传导锐化目标中采用R(p)=S2(p)R\(p\)=S\_\{2\}\(p\),因为二次形式使得梯度关于pp是线性的,即使在预测已经自信的情况下也能产生稳定的更新。将R(p)=S2(p)R\(p\)=S\_\{2\}\(p\)代入定义3 (https://arxiv.org/html/2605.20248#Thmdefinition3)得到传导锐化目标的最终形式:

###### 定义 5 (传导锐化目标).

对于为每个节点v∈Vv\\in V产生概率向量pv∈ΔC−1p\_\{v\}\\in\\Delta^\{C\-1\}的模型,我们通过下式定义传导锐化目标

LTS=Lsup+λ⋅1|VU|∑v∈VU(1−‖pv‖22)−λ⋅1|VL|∑v∈VL(1−‖pv‖22),\\mathcal\{L\}\_\{\\mathrm\{TS\}\}=\\mathcal\{L\}\_\{\\mathrm\{sup\}\}\+\\lambda\\cdot\\frac\{1\}\{\|V\_\{U\}\|\}\\sum\_\{v\\in V\_\{U\}\}\\left\(1\-\\\|p\_\{v\}\\\|\_\{2\}^\{2\}\\right\)\-\\lambda\\cdot\\frac\{1\}\{\|V\_\{L\}\|\}\\sum\_\{v\\in V\_\{L\}\}\\left\(1\-\\\|p\_\{v\}\\\|\_\{2\}^\{2\}\\right\),(6)其中λ∈R\\lambda\\in\\mathbb\{R\}控制锐化的强度。

关于锐化系数的选择。传导锐化目标引入了一个单一的标量超参数λ\\

相似文章

通用多类别直推式在线学习

arXiv cs.LG

本文介绍了Level-Constrained-Littlestone-Littlestone (LCLL)树,以刻画通用直推式在线分类中的可学习性,其中标签空间可能无界,并证明了最优错误率要么有界,要么呈对数增长。

面向链接预测的实例判别

arXiv cs.LG

本文将实例判别自监督学习应用于图中的链接预测,提出了基于链接表示的新模型L-GRACE和L-BGRL,这些模型在无属性图上尤其能提升性能。

图对齐拓扑作为接地检测的归纳偏置

arXiv cs.CL

本文介绍了将图对齐拓扑作为接地检测的归纳偏置,使用图神经网络对参考信息与LLM输出之间的对齐结构进行建模。该方法在多个幻觉和问答数据集上取得了最先进的结果,性能优于GPT-4o。

跨多层级抽象的图表示学习统一视角

arXiv cs.LG

本文提出了一种统一的对比学习框架,用于跨多个抽象层级(节点、邻近性、簇、图)学习图表示,并引入了一种无需参数的自适应加权机制,能够自适应地为相似度分数分配权重,在分类、聚类和链接预测等下游任务上优于现有最先进方法。