超越金牌教师:通过LLM-GNN协同教学增强图学习

arXiv cs.LG 论文

摘要

本文提出LLM-GNN协同教学(LLM-GNN Co-Teaching),一种面向文本属性图的小样本图学习的双向框架。LLM和GNN交换高置信度的伪标签,并利用基于轮次的偏好优化(RPL-PO)相互改进,在基准测试上优于先前方法。

arXiv:2606.11583v1 公告类型:新 摘要:文本属性图(TAG)支撑着现实世界的应用,如引文网络、社交媒体和电子商务。在TAG上进行小样本图学习很困难:每类只有少量标签,其余图数据未标注,GNN和LLM都无法单独学好。GNN读取拓扑结构,在冷节点上失败;LLM读取文本,在文本模糊的节点上失败。现有的LLM-GNN方法都遵循相同范式:指定一个模型为金牌教师,并使用其输出(如特征或伪标签)来监督另一个模型。我们认为这种金牌教师假设在稀疏监督下会失效:没有一个模型是金牌,将任一模型视为金牌会将其盲点传递给学生。因此我们问:能否避免指定任一模型为金牌教师,仍能进行有效的图学习?我们的答案是LLM-GNN协同教学(LLM-GNN Co-Teaching),一种双向协同教学框架,其中没有任何模型被固定为教师。GNN和LLM在特定架构的小损失准则下交换它们最有信心的伪标签,并且每轮都进行更新。然后从轨迹中挖掘监督:每当一个节点从第t轮的跨模型矛盾变为第t+1轮的跨模型一致时,LLM对同一输入的两个答案形成一个偏好对(旧的矛盾自我 < 新的同行认可自我)用于DPO训练。我们称之为基于轮次的伪标签偏好优化(RPL-PO)。在六个基准测试上,LLM-GNN协同教学始终优于GNN-as-Judge和所有先前方法,在Cora和ogbn-arxiv上分别获得7.86%和7.73%的绝对3-shot提升;改进延续到5-shot和零样本跨数据集迁移。误差结构分析进一步表明,放弃金牌教师假设显著提高了LLM在困难样本上的图学习能力。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:49

# 超越黄金导师:通过LLM-GNN协同教学提升图学习 来源:https://arxiv.org/html/2606.11583 彭卓毅¹ 韩翰林² 范立欣² 杨毅¹ ¹香港科技大学 ²微众银行 ###### 摘要 文本属性图(TAGs)支撑着引用网络、社交媒体和电子商务等现实应用。在TAGs上进行少样本图学习是困难的:每类仅有少量标签,其余图数据未标注,无论是GNN还是LLM都无法独立良好学习。GNN读取拓扑结构,在冷节点上失败;LLM读取文本,在文本模糊节点上失败。现有的LLM-GNN方法都遵循同一配方:*指定一个模型作为黄金导师,并将其输出(如特征或伪标签)用于监督另一个模型。* 我们认为这种黄金导师假设在稀疏监督下会失效:没有一个模型是黄金的,将任何一个视为黄金会将其盲点完全转移给学生。因此我们问:*能否避免指定任一模型为黄金导师,仍能进行有效的图学习?* 我们的答案是LLM-GNN协同教学,一个双向协同教学框架,其中没有一个模型被固定为导师。GNN和LLM在架构特定的小损失准则下交换它们最自信的伪标签,并且每轮都更新。然后从轨迹中挖掘监督信号:每当一个节点在第t轮从跨模型矛盾过渡到第t+1轮的跨模型一致时,LLM在同一输入上的两个答案形成一个偏好对(*旧的矛盾自我* ≺ *新的同伴认可自我*)用于DPO训练。我们称之为基于轮的伪标签偏好优化(RPL-PO)。在六个基准测试上,LLM-GNN协同教学始终优于GNN-as-Judge和所有先前方法,在Cora上绝对3-shot提升7.86%,在ogbn-arxiv上提升7.73%;改进延续到5-shot和零样本跨数据集迁移。错误结构分析进一步表明,放弃黄金导师假设显著提高了LLM在挑战性样本上的图学习能力。代码:https://github.com/llmgnncoteaching/LLM-GNN-Coteaching。

## 1 引言

文本属性图(TAGs)[1 (https://arxiv.org/html/2606.11583#bib.bib1),2 (https://arxiv.org/html/2606.11583#bib.bib2),3 (https://arxiv.org/html/2606.11583#bib.bib3),4 (https://arxiv.org/html/2606.11583#bib.bib4)]支撑着引用网络、社交媒体、推荐系统和电子商务等现实应用,其中每个节点携带原始文本以及图拓扑。大型语言模型(LLMs)[5 (https://arxiv.org/html/2606.11583#bib.bib5),6 (https://arxiv.org/html/2606.11583#bib.bib6),7 (https://arxiv.org/html/2606.11583#bib.bib7)]的兴起推动了将其用于TAG学习的日益增长的兴趣[8 (https://arxiv.org/html/2606.11583#bib.bib8),4 (https://arxiv.org/html/2606.11583#bib.bib4),9 (https://arxiv.org/html/2606.11583#bib.bib9),10 (https://arxiv.org/html/2606.11583#bib.bib10),11 (https://arxiv.org/html/2606.11583#bib.bib11),12 (https://arxiv.org/html/2606.11583#bib.bib12)]。然而,现有的大多数TAG学习工作专注于有监督设置,其中大量标签可用,并且两个模型可以可靠地微调[4 (https://arxiv.org/html/2606.11583#bib.bib4),13 (https://arxiv.org/html/2606.11583#bib.bib13),9 (https://arxiv.org/html/2606.11583#bib.bib9),11 (https://arxiv.org/html/2606.11583#bib.bib11),10 (https://arxiv.org/html/2606.11583#bib.bib10),14 (https://arxiv.org/html/2606.11583#bib.bib14),12 (https://arxiv.org/html/2606.11583#bib.bib12)]。现实世界的TAGs很少以这种规模进行标注:通常每类只有少量标签可用,并且图的大部分没有监督信号[15 (https://arxiv.org/html/2606.11583#bib.bib15),16 (https://arxiv.org/html/2606.11583#bib.bib16),17 (https://arxiv.org/html/2606.11583#bib.bib17),18 (https://arxiv.org/html/2606.11583#bib.bib18),19 (https://arxiv.org/html/2606.11583#bib.bib19)]。在这种少样本设置下,无论是GNNs[20 (https://arxiv.org/html/2606.11583#bib.bib20),21 (https://arxiv.org/html/2606.11583#bib.bib21),22 (https://arxiv.org/html/2606.11583#bib.bib22),23 (https://arxiv.org/html/2606.11583#bib.bib23)]还是LLMs都无法单独良好工作:GNNs读取拓扑结构,在冷(低度)节点上失败,因为这些节点的邻域信号太弱[24 (https://arxiv.org/html/2606.11583#bib.bib24),25 (https://arxiv.org/html/2606.11583#bib.bib25)];而LLMs读取文本,在文本短或类别模糊时失败[26 (https://arxiv.org/html/2606.11583#bib.bib26),27 (https://arxiv.org/html/2606.11583#bib.bib27),28 (https://arxiv.org/html/2606.11583#bib.bib28),29 (https://arxiv.org/html/2606.11583#bib.bib29)]。它们不重叠的失败模式激发了一大类将它们结合的工作。现有的LLM-GNN方法都共享一个共同结构:一个模型被指定为固定教师,其输出被视为真实标签,另一个模型被训练来匹配这些输出。我们将这种共享的结构假设称为*黄金教师假设*。先前的方法仅在将哪一侧指定为黄金上有所不同。*LLM-as-Enhancers* [4 (https://arxiv.org/html/2606.11583#bib.bib4),13 (https://arxiv.org/html/2606.11583#bib.bib13),30 (https://arxiv.org/html/2606.11583#bib.bib30),31 (https://arxiv.org/html/2606.11583#bib.bib31)]冻结LLM衍生特征或解释,并训练下游GNN来模仿它们。*LLM-as-Predictor*方法[9 (https://arxiv.org/html/2606.11583#bib.bib9),11 (https://arxiv.org/html/2606.11583#bib.bib11),10 (https://arxiv.org/html/2606.11583#bib.bib10),12 (https://arxiv.org/html/2606.11583#bib.bib12),14 (https://arxiv.org/html/2606.11583#bib.bib14),32 (https://arxiv.org/html/2606.11583#bib.bib32),33 (https://arxiv.org/html/2606.11583#bib.bib33)]将经过一次指令微调的LLM视为黄金预测器,通常用结构标记进行提示。*GNN-as-Judge* [34 (https://arxiv.org/html/2606.11583#bib.bib34)]反转了方向:经过一次训练的GNN的判定过滤或重新加权伪标签,用于LLM微调。在每种情况下,监督信号都从固定教师单向流动,学生无法修改教师的说法。

黄金教师假设在稀疏监督下会失效。每类只有少量标签时,没有一个模型足够可靠来担任黄金教师:GNN无法为冷节点学习良好表示,LLM无法在没有示例的情况下区分短文本或类别模糊文本。将任何一个视为黄金会将其盲点完全转移到学生上,单向监督使得学生无法修改教师的说法。因此,少样本LLM-GNN学习尚未提出的问题是:

> *我们能否避免指定任一模型为黄金教师,仍然进行有效的图学习?*

这个问题并不简单:只有少量标记锚点作为直接监督,两个弱模型自由地相互更新可能会崩溃到彼此的错误上,而不是收敛到真相。框架需要一个机制,从它们的联合动态中提取可靠的监督信号。

之前:两者都弱,它们矛盾 A C ≠ weak GNN weak LLM weak weak 矛盾 谁应该成为黄金教师?轮次结构 + RPL-PO:偏好达成一致的自我 R_t: 矛盾 A C ≠ GNN LLM 两者都弱 协同教学 R_{t+1}: 一致 B B = GNN LLM 同伴认可 ⋯ 偏好一致,拒绝矛盾 偏好优化 偏好同伴认可的自我胜过早期矛盾的自我。

图1:没有黄金教师的协同教学。两个弱模型之间的一轮交互在节点v上留下矛盾,无法选择哪个应该作为黄金教师(左)。经过又一轮双向协同教学,两个模型都进化了,如果它们现在在B上达成一致,则LLM在R_t的矛盾答案C和R_{t+1}的同伴认可答案B一起形成一个偏好对:早期自我被拒绝,同伴认可的自我被偏好(右)。奖励信号来自轨迹本身。没有黄金教师,没有人工标签,没有奖励模型,没有外部裁判。

我们的答案是LLM-GNN协同教学,一个协同教学框架,不指定任何一侧为黄金教师,而是让GNN和LLM共同进化。训练以轮次进行:在每一轮中,每个同伴在架构特定的小损失准则(GNN的交叉熵适合,LLM的最小token对数概率)下提取其最自信的伪标签,并将它们传递给另一个模型,这样两个同伴都从弱逐渐变强。为了创建额外的监督信号,我们进一步从该轨迹中挖掘偏好信号:每当一个节点从第t轮的跨模型矛盾过渡到第t+1轮的跨模型一致时,LLM在同一节点上的两个答案——早期矛盾的答案和后期同伴认可的答案——形成一个自然的偏好对,我们将其提供给直接偏好优化(DPO)[35 (https://arxiv.org/html/2606.11583#bib.bib35)]。我们称之为基于轮的伪标签偏好优化(RPL-PO)。奖励信号来自轨迹本身:没有黄金教师,没有人工标签,没有奖励模型,没有外部裁判。

#### 贡献。
(1) 我们放弃了黄金教师假设。LLM-GNN协同教学是第一种LLM-GNN方法,其中没有模型被指定为权威,两者每轮更新,并通过小损失准则相互监督。
(2) RPL-PO:一个自监督偏好对生成器。一个节点从第t轮的跨模型矛盾过渡到第t+1轮的跨模型一致,产生来自LLM在同一输入上的两个答案的DPO偏好对。RPL-PO不需要人工标签、奖励模型或外部裁判,并且在结构上无法被单轮或冻结教师管道所访问。
(3) 在六个基准测试上达到最先进水平。LLM-GNN协同教学在Cora上超过GNN-as-Judge最多7.86个百分点,在ogbn-arxiv上超过7.73个百分点(3-shot监督下),相同的领先优势延续到5-shot和零样本跨数据集迁移。§5.6 (https://arxiv.org/html/2606.11583#S5.SS6)中的错误结构分析表明,放弃黄金教师假设显著提高了LLM在挑战性样本上的图学习能力。

## 2 相关工作

#### 用于图学习的LLM-GNN方法。
结合LLM和GNN用于TAGs已被广泛探索[8 (https://arxiv.org/html/2606.11583#bib.bib8),9 (https://arxiv.org/html/2606.11583#bib.bib9),10 (https://arxiv.org/html/2606.11583#bib.bib10),4 (https://arxiv.org/html/2606.11583#bib.bib4),29 (https://arxiv.org/html/2606.11583#bib.bib29),26 (https://arxiv.org/html/2606.11583#bib.bib26),27 (https://arxiv.org/html/2606.11583#bib.bib27),28 (https://arxiv.org/html/2606.11583#bib.bib28),36 (https://arxiv.org/html/2606.11583#bib.bib36),37 (https://arxiv.org/html/2606.11583#bib.bib37)]。*LLM-as-Enhancers* [4 (https://arxiv.org/html/2606.11583#bib.bib4),13 (https://arxiv.org/html/2606.11583#bib.bib13),30 (https://arxiv.org/html/2606.11583#bib.bib30),31 (https://arxiv.org/html/2606.11583#bib.bib31)]冻结LLM衍生的特征或解释作为下游GNN的丰富节点输入。*LLM-as-Predictors* [9 (https://arxiv.org/html/2606.11583#bib.bib9),8 (https://arxiv.org/html/2606.11583#bib.bib8),10 (https://arxiv.org/html/2606.11583#bib.bib10),11 (https://arxiv.org/html/2606.11583#bib.bib11),12 (https://arxiv.org/html/2606.11583#bib.bib12),33 (https://arxiv.org/html/2606.11583#bib.bib33),32 (https://arxiv.org/html/2606.11583#bib.bib32),14 (https://arxiv.org/html/2606.11583#bib.bib14)]将节点分类视为文本生成,通常使用结构提示或图标记。*GNN-as-Judge* [34 (https://arxiv.org/html/2606.11583#bib.bib34)]反转了方向:一个经过一次训练的GNN的判定过滤掉伪标签用于微调LLM,在条件独立下对一致集准确率有理论下界;Sheng et al. [38 (https://arxiv.org/html/2606.11583#bib.bib38)]类似地将LLM注释视为图主动学习中的噪声预言。在每种情况下,一个模型被固定为黄金教师,监督信号单向流动。LLM-GNN协同教学则没有指定黄金教师:两个模型每轮更新,并在多轮中相互判断。

#### 协同教学、噪声标签和伪标签选择。
协同教学[39 (https://arxiv.org/html/2606.11583#bib.bib39)]同时训练两个网络,每个网络为同伴选择小损失样本。Co-Teaching+ [40 (https://arxiv.org/html/2606.11583#bib.bib40)]增加了分歧过滤,DivideMix [41 (https://arxiv.org/html/2606.11583#bib.bib41)]引入了混合模型选择,早期的协同训练[42 (https://arxiv.org/html/2606.11583#bib.bib42),43 (https://arxiv.org/html/2606.11583#bib.bib43),44 (https://arxiv.org/html/2606.11583#bib.bib44)]变体配对相同架构的网络。更广泛的噪声标签文献[45 (https://arxiv.org/html/2606.11583#bib.bib45),46 (https://arxiv.org/html/2606.11583#bib.bib46),47 (https://arxiv.org/html/2606.11583#bib.bib47),48 (https://arxiv.org/html/2606.11583#bib.bib48),49 (https://arxiv.org/html/2606.11583#bib.bib49)]同样将噪声视为跨视图同质的,最近的工作警告LLMs在其自身输出上训练会随时间退化[50 (https://arxiv.org/html/2606.11583#bib.bib50)]。密切相关的是伪标签[51 (https://arxiv.org/html/2606.11583#bib.bib51)],它用小标签集增强模型生成的标签,其中挖掘易和难样本被证明至关重要[52 (https://arxiv.org/html/2606.11583#bib.bib52),53 (https://arxiv.org/html/2606.11583#bib.bib53)]。在图上,先前工作探索了多阶段自训练[19 (https://arxiv.org/html/2606.11583#bib.bib19)]、标签传播混合方法[54 (https://arxiv.org/html/2606.11583#bib.bib54),24 (https://arxiv.org/html/2606.11583#bib.bib24)]、置信度感知过滤[55 (https://arxiv.org/html/2606.11583#bib.bib55)]和主动标注[56 (https://arxiv.org/html/2606.11583#bib.bib56),57 (https://arxiv.org/html/2606.11583#bib.bib57)],其中单轮GNN-LLM一致过滤器[34 (https://arxiv.org/html/2606.11583#bib.bib34)]与我们的设置最接近。所有这些先前工作都配对同构网络,并使用单轮选择。我们是第一个在*异构*架构(GNN + LLM)上迭代进行协同教学的,其互补的归纳偏差(结构 vs. 语义)提供了比随机初始化多样性更强的误差独立性。

#### 偏好优化。
来自反馈的LLM对齐起源于RLHF [58 (https://arxiv.org/html/2606.11583#bib.bib58),59 (https://arxiv.org/html/2606.11583#bib.bib59),60 (https://arxiv.org/html/2606.11583#bib.bib60)],DPO [35 (https://arxiv.org/html/2606.11583#bib.bib35)]及其变体[61 (https://arxiv.org/html/2606.11583#bib.bib61),62 (https://arxiv.org/html/2606.11583#bib.bib62),63 (https://arxiv.org/html/2606.11583#bib.bib63),64 (https://arxiv.org/html/2606.11583#bib.bib64),65 (https://arxiv.org/html/2606.11583#bib.bib65),66 (https://arxiv.org/html/2606.11583#bib.bib66)]用成对偏好取代了奖励模型。在图上,GNN-as-Judge [34 (https://arxiv.org/html/2606.11583#bib.bib34)]和InstructGraph [14 (https://arxiv.org/html/2606.11583#bib.bib14)]将偏好微调应用于轮内GNN-LLM分歧;RPL-PO则利用*时间*轨迹。

相似文章

GraphInfer-Bench:在图上的LLM推理能力基准测试

arXiv cs.LG

介绍了GraphInfer-Bench,这是一个基准测试,用于评估LLMs是否能够进行图推理——生成关于节点及其邻域的开放式答案,这些答案无法从单个节点或路径中检索到。实验表明,即使是最前沿的LLMs在这些任务上也落后于普通GNNs,揭示了一个能力差距。