超越金牌教师：通过LLM-GNN协同教学增强图学习

arXiv cs.LG 2026/06/11 04:00 论文

graph-learning llm gnn few-shot text-attributed-graphs co-teaching dpo

摘要

本文提出LLM-GNN协同教学（LLM-GNN Co-Teaching），一种面向文本属性图的小样本图学习的双向框架。LLM和GNN交换高置信度的伪标签，并利用基于轮次的偏好优化（RPL-PO）相互改进，在基准测试上优于先前方法。

arXiv:2606.11583v1 公告类型：新摘要：文本属性图（TAG）支撑着现实世界的应用，如引文网络、社交媒体和电子商务。在TAG上进行小样本图学习很困难：每类只有少量标签，其余图数据未标注，GNN和LLM都无法单独学好。GNN读取拓扑结构，在冷节点上失败；LLM读取文本，在文本模糊的节点上失败。现有的LLM-GNN方法都遵循相同范式：指定一个模型为金牌教师，并使用其输出（如特征或伪标签）来监督另一个模型。我们认为这种金牌教师假设在稀疏监督下会失效：没有一个模型是金牌，将任一模型视为金牌会将其盲点传递给学生。因此我们问：能否避免指定任一模型为金牌教师，仍能进行有效的图学习？我们的答案是LLM-GNN协同教学（LLM-GNN Co-Teaching），一种双向协同教学框架，其中没有任何模型被固定为教师。GNN和LLM在特定架构的小损失准则下交换它们最有信心的伪标签，并且每轮都进行更新。然后从轨迹中挖掘监督：每当一个节点从第t轮的跨模型矛盾变为第t+1轮的跨模型一致时，LLM对同一输入的两个答案形成一个偏好对（旧的矛盾自我 < 新的同行认可自我）用于DPO训练。我们称之为基于轮次的伪标签偏好优化（RPL-PO）。在六个基准测试上，LLM-GNN协同教学始终优于GNN-as-Judge和所有先前方法，在Cora和ogbn-arxiv上分别获得7.86%和7.73%的绝对3-shot提升；改进延续到5-shot和零样本跨数据集迁移。误差结构分析进一步表明，放弃金牌教师假设显著提高了LLM在困难样本上的图学习能力。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:49

# 超越黄金导师：通过LLM-GNN协同教学提升图学习 来源：https://arxiv.org/html/2606.11583 彭卓毅¹ 韩翰林² 范立欣² 杨毅¹ ¹香港科技大学 ²微众银行 ###### 摘要 文本属性图（TAGs）支撑着引用网络、社交媒体和电子商务等现实应用。在TAGs上进行少样本图学习是困难的：每类仅有少量标签，其余图数据未标注，无论是GNN还是LLM都无法独立良好学习。GNN读取拓扑结构，在冷节点上失败；LLM读取文本，在文本模糊节点上失败。现有的LLM-GNN方法都遵循同一配方：*指定一个模型作为黄金导师，并将其输出（如特征或伪标签）用于监督另一个模型。* 我们认为这种黄金导师假设在稀疏监督下会失效：没有一个模型是黄金的，将任何一个视为黄金会将其盲点完全转移给学生。因此我们问：*能否避免指定任一模型为黄金导师，仍能进行有效的图学习？* 我们的答案是LLM-GNN协同教学，一个双向协同教学框架，其中没有一个模型被固定为导师。GNN和LLM在架构特定的小损失准则下交换它们最自信的伪标签，并且每轮都更新。然后从轨迹中挖掘监督信号：每当一个节点在第t轮从跨模型矛盾过渡到第t+1轮的跨模型一致时，LLM在同一输入上的两个答案形成一个偏好对（*旧的矛盾自我* ≺ *新的同伴认可自我*）用于DPO训练。我们称之为基于轮的伪标签偏好优化（RPL-PO）。在六个基准测试上，LLM-GNN协同教学始终优于GNN-as-Judge和所有先前方法，在Cora上绝对3-shot提升7.86%，在ogbn-arxiv上提升7.73%；改进延续到5-shot和零样本跨数据集迁移。错误结构分析进一步表明，放弃黄金导师假设显著提高了LLM在挑战性样本上的图学习能力。代码：https://github.com/llmgnncoteaching/LLM-GNN-Coteaching。

## 1 引言

文本属性图（TAGs）[1 (https://arxiv.org/html/2606.11583#bib.bib1),2 (https://arxiv.org/html/2606.11583#bib.bib2),3 (https://arxiv.org/html/2606.11583#bib.bib3),4 (https://arxiv.org/html/2606.11583#bib.bib4)]支撑着引用网络、社交媒体、推荐系统和电子商务等现实应用，其中每个节点携带原始文本以及图拓扑。大型语言模型（LLMs）[5 (https://arxiv.org/html/2606.11583#bib.bib5),6 (https://arxiv.org/html/2606.11583#bib.bib6),7 (https://arxiv.org/html/2606.11583#bib.bib7)]的兴起推动了将其用于TAG学习的日益增长的兴趣[8 (https://arxiv.org/html/2606.11583#bib.bib8),4 (https://arxiv.org/html/2606.11583#bib.bib4),9 (https://arxiv.org/html/2606.11583#bib.bib9),10 (https://arxiv.org/html/2606.11583#bib.bib10),11 (https://arxiv.org/html/2606.11583#bib.bib11),12 (https://arxiv.org/html/2606.11583#bib.bib12)]。然而，现有的大多数TAG学习工作专注于有监督设置，其中大量标签可用，并且两个模型可以可靠地微调[4 (https://arxiv.org/html/2606.11583#bib.bib4),13 (https://arxiv.org/html/2606.11583#bib.bib13),9 (https://arxiv.org/html/2606.11583#bib.bib9),11 (https://arxiv.org/html/2606.11583#bib.bib11),10 (https://arxiv.org/html/2606.11583#bib.bib10),14 (https://arxiv.org/html/2606.11583#bib.bib14),12 (https://arxiv.org/html/2606.11583#bib.bib12)]。现实世界的TAGs很少以这种规模进行标注：通常每类只有少量标签可用，并且图的大部分没有监督信号[15 (https://arxiv.org/html/2606.11583#bib.bib15),16 (https://arxiv.org/html/2606.11583#bib.bib16),17 (https://arxiv.org/html/2606.11583#bib.bib17),18 (https://arxiv.org/html/2606.11583#bib.bib18),19 (https://arxiv.org/html/2606.11583#bib.bib19)]。在这种少样本设置下，无论是GNNs[20 (https://arxiv.org/html/2606.11583#bib.bib20),21 (https://arxiv.org/html/2606.11583#bib.bib21),22 (https://arxiv.org/html/2606.11583#bib.bib22),23 (https://arxiv.org/html/2606.11583#bib.bib23)]还是LLMs都无法单独良好工作：GNNs读取拓扑结构，在冷（低度）节点上失败，因为这些节点的邻域信号太弱[24 (https://arxiv.org/html/2606.11583#bib.bib24),25 (https://arxiv.org/html/2606.11583#bib.bib25)]；而LLMs读取文本，在文本短或类别模糊时失败[26 (https://arxiv.org/html/2606.11583#bib.bib26),27 (https://arxiv.org/html/2606.11583#bib.bib27),28 (https://arxiv.org/html/2606.11583#bib.bib28),29 (https://arxiv.org/html/2606.11583#bib.bib29)]。它们不重叠的失败模式激发了一大类将它们结合的工作。现有的LLM-GNN方法都共享一个共同结构：一个模型被指定为固定教师，其输出被视为真实标签，另一个模型被训练来匹配这些输出。我们将这种共享的结构假设称为*黄金教师假设*。先前的方法仅在将哪一侧指定为黄金上有所不同。*LLM-as-Enhancers* [4 (https://arxiv.org/html/2606.11583#bib.bib4),13 (https://arxiv.org/html/2606.11583#bib.bib13),30 (https://arxiv.org/html/2606.11583#bib.bib30),31 (https://arxiv.org/html/2606.11583#bib.bib31)]冻结LLM衍生特征或解释，并训练下游GNN来模仿它们。*LLM-as-Predictor*方法[9 (https://arxiv.org/html/2606.11583#bib.bib9),11 (https://arxiv.org/html/2606.11583#bib.bib11),10 (https://arxiv.org/html/2606.11583#bib.bib10),12 (https://arxiv.org/html/2606.11583#bib.bib12),14 (https://arxiv.org/html/2606.11583#bib.bib14),32 (https://arxiv.org/html/2606.11583#bib.bib32),33 (https://arxiv.org/html/2606.11583#bib.bib33)]将经过一次指令微调的LLM视为黄金预测器，通常用结构标记进行提示。*GNN-as-Judge* [34 (https://arxiv.org/html/2606.11583#bib.bib34)]反转了方向：经过一次训练的GNN的判定过滤或重新加权伪标签，用于LLM微调。在每种情况下，监督信号都从固定教师单向流动，学生无法修改教师的说法。

黄金教师假设在稀疏监督下会失效。每类只有少量标签时，没有一个模型足够可靠来担任黄金教师：GNN无法为冷节点学习良好表示，LLM无法在没有示例的情况下区分短文本或类别模糊文本。将任何一个视为黄金会将其盲点完全转移到学生上，单向监督使得学生无法修改教师的说法。因此，少样本LLM-GNN学习尚未提出的问题是：

> *我们能否避免指定任一模型为黄金教师，仍然进行有效的图学习？*

这个问题并不简单：只有少量标记锚点作为直接监督，两个弱模型自由地相互更新可能会崩溃到彼此的错误上，而不是收敛到真相。框架需要一个机制，从它们的联合动态中提取可靠的监督信号。

之前：两者都弱，它们矛盾 A C ≠ weak GNN weak LLM weak weak 矛盾 谁应该成为黄金教师？轮次结构 + RPL-PO：偏好达成一致的自我 R_t: 矛盾 A C ≠ GNN LLM 两者都弱 协同教学 R_{t+1}: 一致 B B = GNN LLM 同伴认可 ⋯ 偏好一致，拒绝矛盾 偏好优化 偏好同伴认可的自我胜过早期矛盾的自我。

图1：没有黄金教师的协同教学。两个弱模型之间的一轮交互在节点v上留下矛盾，无法选择哪个应该作为黄金教师（左）。经过又一轮双向协同教学，两个模型都进化了，如果它们现在在B上达成一致，则LLM在R_t的矛盾答案C和R_{t+1}的同伴认可答案B一起形成一个偏好对：早期自我被拒绝，同伴认可的自我被偏好（右）。奖励信号来自轨迹本身。没有黄金教师，没有人工标签，没有奖励模型，没有外部裁判。

我们的答案是LLM-GNN协同教学，一个协同教学框架，不指定任何一侧为黄金教师，而是让GNN和LLM共同进化。训练以轮次进行：在每一轮中，每个同伴在架构特定的小损失准则（GNN的交叉熵适合，LLM的最小token对数概率）下提取其最自信的伪标签，并将它们传递给另一个模型，这样两个同伴都从弱逐渐变强。为了创建额外的监督信号，我们进一步从该轨迹中挖掘偏好信号：每当一个节点从第t轮的跨模型矛盾过渡到第t+1轮的跨模型一致时，LLM在同一节点上的两个答案——早期矛盾的答案和后期同伴认可的答案——形成一个自然的偏好对，我们将其提供给直接偏好优化（DPO）[35 (https://arxiv.org/html/2606.11583#bib.bib35)]。我们称之为基于轮的伪标签偏好优化（RPL-PO）。奖励信号来自轨迹本身：没有黄金教师，没有人工标签，没有奖励模型，没有外部裁判。

#### 贡献。
(1) 我们放弃了黄金教师假设。LLM-GNN协同教学是第一种LLM-GNN方法，其中没有模型被指定为权威，两者每轮更新，并通过小损失准则相互监督。
(2) RPL-PO：一个自监督偏好对生成器。一个节点从第t轮的跨模型矛盾过渡到第t+1轮的跨模型一致，产生来自LLM在同一输入上的两个答案的DPO偏好对。RPL-PO不需要人工标签、奖励模型或外部裁判，并且在结构上无法被单轮或冻结教师管道所访问。
(3) 在六个基准测试上达到最先进水平。LLM-GNN协同教学在Cora上超过GNN-as-Judge最多7.86个百分点，在ogbn-arxiv上超过7.73个百分点（3-shot监督下），相同的领先优势延续到5-shot和零样本跨数据集迁移。§5.6 (https://arxiv.org/html/2606.11583#S5.SS6)中的错误结构分析表明，放弃黄金教师假设显著提高了LLM在挑战性样本上的图学习能力。

## 2 相关工作

#### 用于图学习的LLM-GNN方法。
结合LLM和GNN用于TAGs已被广泛探索[8 (https://arxiv.org/html/2606.11583#bib.bib8),9 (https://arxiv.org/html/2606.11583#bib.bib9),10 (https://arxiv.org/html/2606.11583#bib.bib10),4 (https://arxiv.org/html/2606.11583#bib.bib4),29 (https://arxiv.org/html/2606.11583#bib.bib29),26 (https://arxiv.org/html/2606.11583#bib.bib26),27 (https://arxiv.org/html/2606.11583#bib.bib27),28 (https://arxiv.org/html/2606.11583#bib.bib28),36 (https://arxiv.org/html/2606.11583#bib.bib36),37 (https://arxiv.org/html/2606.11583#bib.bib37)]。*LLM-as-Enhancers* [4 (https://arxiv.org/html/2606.11583#bib.bib4),13 (https://arxiv.org/html/2606.11583#bib.bib13),30 (https://arxiv.org/html/2606.11583#bib.bib30),31 (https://arxiv.org/html/2606.11583#bib.bib31)]冻结LLM衍生的特征或解释作为下游GNN的丰富节点输入。*LLM-as-Predictors* [9 (https://arxiv.org/html/2606.11583#bib.bib9),8 (https://arxiv.org/html/2606.11583#bib.bib8),10 (https://arxiv.org/html/2606.11583#bib.bib10),11 (https://arxiv.org/html/2606.11583#bib.bib11),12 (https://arxiv.org/html/2606.11583#bib.bib12),33 (https://arxiv.org/html/2606.11583#bib.bib33),32 (https://arxiv.org/html/2606.11583#bib.bib32),14 (https://arxiv.org/html/2606.11583#bib.bib14)]将节点分类视为文本生成，通常使用结构提示或图标记。*GNN-as-Judge* [34 (https://arxiv.org/html/2606.11583#bib.bib34)]反转了方向：一个经过一次训练的GNN的判定过滤掉伪标签用于微调LLM，在条件独立下对一致集准确率有理论下界；Sheng et al. [38 (https://arxiv.org/html/2606.11583#bib.bib38)]类似地将LLM注释视为图主动学习中的噪声预言。在每种情况下，一个模型被固定为黄金教师，监督信号单向流动。LLM-GNN协同教学则没有指定黄金教师：两个模型每轮更新，并在多轮中相互判断。

#### 协同教学、噪声标签和伪标签选择。
协同教学[39 (https://arxiv.org/html/2606.11583#bib.bib39)]同时训练两个网络，每个网络为同伴选择小损失样本。Co-Teaching+ [40 (https://arxiv.org/html/2606.11583#bib.bib40)]增加了分歧过滤，DivideMix [41 (https://arxiv.org/html/2606.11583#bib.bib41)]引入了混合模型选择，早期的协同训练[42 (https://arxiv.org/html/2606.11583#bib.bib42),43 (https://arxiv.org/html/2606.11583#bib.bib43),44 (https://arxiv.org/html/2606.11583#bib.bib44)]变体配对相同架构的网络。更广泛的噪声标签文献[45 (https://arxiv.org/html/2606.11583#bib.bib45),46 (https://arxiv.org/html/2606.11583#bib.bib46),47 (https://arxiv.org/html/2606.11583#bib.bib47),48 (https://arxiv.org/html/2606.11583#bib.bib48),49 (https://arxiv.org/html/2606.11583#bib.bib49)]同样将噪声视为跨视图同质的，最近的工作警告LLMs在其自身输出上训练会随时间退化[50 (https://arxiv.org/html/2606.11583#bib.bib50)]。密切相关的是伪标签[51 (https://arxiv.org/html/2606.11583#bib.bib51)]，它用小标签集增强模型生成的标签，其中挖掘易和难样本被证明至关重要[52 (https://arxiv.org/html/2606.11583#bib.bib52),53 (https://arxiv.org/html/2606.11583#bib.bib53)]。在图上，先前工作探索了多阶段自训练[19 (https://arxiv.org/html/2606.11583#bib.bib19)]、标签传播混合方法[54 (https://arxiv.org/html/2606.11583#bib.bib54),24 (https://arxiv.org/html/2606.11583#bib.bib24)]、置信度感知过滤[55 (https://arxiv.org/html/2606.11583#bib.bib55)]和主动标注[56 (https://arxiv.org/html/2606.11583#bib.bib56),57 (https://arxiv.org/html/2606.11583#bib.bib57)]，其中单轮GNN-LLM一致过滤器[34 (https://arxiv.org/html/2606.11583#bib.bib34)]与我们的设置最接近。所有这些先前工作都配对同构网络，并使用单轮选择。我们是第一个在*异构*架构（GNN + LLM）上迭代进行协同教学的，其互补的归纳偏差（结构 vs. 语义）提供了比随机初始化多样性更强的误差独立性。

#### 偏好优化。
来自反馈的LLM对齐起源于RLHF [58 (https://arxiv.org/html/2606.11583#bib.bib58),59 (https://arxiv.org/html/2606.11583#bib.bib59),60 (https://arxiv.org/html/2606.11583#bib.bib60)]，DPO [35 (https://arxiv.org/html/2606.11583#bib.bib35)]及其变体[61 (https://arxiv.org/html/2606.11583#bib.bib61),62 (https://arxiv.org/html/2606.11583#bib.bib62),63 (https://arxiv.org/html/2606.11583#bib.bib63),64 (https://arxiv.org/html/2606.11583#bib.bib64),65 (https://arxiv.org/html/2606.11583#bib.bib65),66 (https://arxiv.org/html/2606.11583#bib.bib66)]用成对偏好取代了奖励模型。在图上，GNN-as-Judge [34 (https://arxiv.org/html/2606.11583#bib.bib34)]和InstructGraph [14 (https://arxiv.org/html/2606.11583#bib.bib14)]将偏好微调应用于轮内GNN-LLM分歧；RPL-PO则利用*时间*轨迹。

超越金牌教师：通过LLM-GNN协同教学增强图学习

相似文章

TAROT：面向少样本表格学习的LLM先验图任务自适应精化

ExpGraph：面向LLM智能体的模型无关经验学习与图结构记忆

图自监督学习对现实世界噪声的鲁棒性：基于文本驱动生物医学图的案例研究

面向多LLM智能体系统上下文自适应的基于图的目标反向传播

GraphInfer-Bench：在图上的LLM推理能力基准测试

提交意见反馈