GraphInfer-Bench:在图上的LLM推理能力基准测试
摘要
介绍了GraphInfer-Bench,这是一个基准测试,用于评估LLMs是否能够进行图推理——生成关于节点及其邻域的开放式答案,这些答案无法从单个节点或路径中检索到。实验表明,即使是最前沿的LLMs在这些任务上也落后于普通GNNs,揭示了一个能力差距。
arXiv:2606.11562v1 公告类型: 新
摘要:图分析是许多应用的基础,这些应用的答案无法从单个记录或沿路径检索:洗钱团伙、药物重定位、用户偏好和科学主题都是从节点及其邻域推断出来的。我们引入了GraphInfer-Bench,这是一个基准测试,用于评估LLMs是否能够进行这种图推理:生成一个没有单个节点支持且没有路径可检索的开放式答案。现有的图问答协议无法测试这种能力:算法模拟、节点分类、单节点描述、知识图谱问答和图RAG都允许从单个节点或沿路径检索答案。GraphInfer-Bench定义了沿描述(区域是什么)和比较(区域如何不同)的五项任务,每个任务都构建使得真实标签不在任何单个节点中。该版本包含来自六个真实世界图的42,000个样本,自动生成并通过四层质量控制协议筛选。我们针对相同的任务评估了四种方法族:图-标记对齐模型、零样本前沿闭源LLM、Graph2Text监督微调和作为结构参考的普通GNN。没有一种方法族能弥合差距。图-标记对齐部分处理了描述任务(关系、主题)但在比较任务上失败。前沿LLM在异常检测和社区划分方面领先于基于LLM的方法,但在掩码节点预测上落后。Graph2Text SFT在描述方面是最强的基于LLM的方法,但在比较上落后于前沿LLM。在所有任务中,普通GNN匹配或击败了最强的基于LLM的行,在社区检测上差距最大。GraphInfer-Bench揭示了图推理是一个开放的能力差距,而不是任何单一架构的属性。
查看缓存全文
缓存时间: 2026/06/11 13:48
# GraphInfer-Bench:评估LLM在图上的推理能力 来源:https://arxiv.org/html/2606.11562
彭卓毅¹ 蒋靖洲¹ 顾翰林² 范立信² 杨毅¹
¹香港科技大学 ²微众银行
###### 摘要
图分析支撑着许多应用,这些应用的答案无法从单个记录中查找,也无法沿着路径检索:洗钱团伙、药物重定位、用户偏好和科学主题都是从一个节点及其邻域中推断出来的。我们提出**GraphInfer-Bench**,这是一个用于评估LLM是否能够执行这种*图推理*的基准:生成一个没有单个节点支持、也没有任何路径能检索到的开放式答案。现有的图问答协议无法测试这种能力:算法模拟、节点分类、单节点描述、知识图谱问答和图增强检索(GraphRAG)都允许从单个节点或沿路径检索答案。**GraphInfer-Bench**定义了沿*描述*(区域是什么)和*比较*(区域如何不同)两个轴线的五项任务,每个任务的构建都确保真实标签不存在于任何单个节点中。发布版本包含42,000个样本,涵盖六个真实世界图,通过自动生成并经四层质量控制协议筛选。我们针对相同的任务评估了四种方法家族:图-令牌对齐模型、零样本前沿闭源LLM、Graph2Text监督微调,以及作为结构参考的普通GNN。没有一个方法家族能够弥合差距。图-令牌对齐部分处理了描述任务(关系、主题),但在比较任务上崩溃。前沿LLM在基于LLM的方法中在异常检测和社区划分上领先,但在掩码节点预测上落后。Graph2Text SFT在描述方面是最强的LLM方法,但在比较方面落后于前沿LLM。在每个任务上,普通GNN都匹配或击败了最强的LLM方法,在社区检测上差距最大。**GraphInfer-Bench**揭示了图推理是一个开放的差距,而非任何单一架构的属性。
代码:https://github.com/graphinfer/GraphInfer-Bench。
数据集:https://huggingface.co/datasets/graphinfer/graphinfer。
## 1 引言
图分析支撑着许多现实世界问题,这些问题的答案无法从单个记录中查找,也无法沿路径检索。一个洗钱团伙是通过跨多个账户的交易模式识别出来的[20 (https://arxiv.org/html/2606.11562#bib.bib20)]。一个药物重定位假设是通过对药物-基因-疾病关系的联合推理产生的[10 (https://arxiv.org/html/2606.11562#bib.bib10)]。用户的偏好是从过去交互的结构中推断出来的,而不是从任何单次购买中得出的[32 (https://arxiv.org/html/2606.11562#bib.bib32)]。一个科学主题是从许多论文的联合引用模式中解读出来的,而不是从任何一篇摘要中得到的[21 (https://arxiv.org/html/2606.11562#bib.bib21)]。这些答案都不存在于任何单个节点中:每个答案都必须从一个节点及其邻域中*推断*出来。图推理。
我们将**图推理**定义为:针对一个节点及其邻域的问题生成开放式答案,其中答案 (i) 不受任何单个节点内容的确定,(ii) 不受任何遍历值的确定(排除知识图谱问答风格的检索),并且 (iii) 需要联合读取边和节点文本,而非仅凭单一模态。**GraphInfer-Bench**衡量的是这种能力,而非任何特定架构。
图推理与查找和检索不同。*查找*返回节点自身的属性。*检索*返回通过图获得的预先存在的答案(知识图谱路径实体、某个节点页面中的片段)。*推理*两者都不是:识别聚类的一致主题、不属于该聚类的异常点、或一个连贯的划分,所有这些都需要开放式语言,这些语言不存在于任何单个节点中,也无法沿任何路径检索。
现有的图问答评估并未测试这一点。表1 (https://arxiv.org/html/2606.11562#S1.T1) 中的协议是查找或检索,而不是推理。算法模拟(NLGraph、GraphArena 及相关工作)是对合成图的结构化查找。节点分类、链接预测和单节点描述(LLaGA)是单节点任务。知识图谱问答(WebQSP、CWQ、GrailQA、MetaQA、KQA Pro)是路径遍历检索。图增强检索(STaRK、CRAG、GRBench)是由图索引的语料库检索。
**GraphInfer-Bench**针对六个真实世界图询问主题、异常点、划分和掩码内容,并根据确定性的结构真实标签进行评分。
表 1:目前使用的图问答评估,按 G(图)、Q(问题)、A(答案)三个轴组织。
| 任务 | G: 图 | Q: 问题 | A: 答案 |
|------|-------|---------|---------|
| **结构化查找:仅从图结构中获取答案** | | | |
| 算法模拟 | NLGraph[30], GraCoRe[38], GraphArena[28], Talk-Like-a-Graph[6], GraphWiz[3] | 合成图,例如 ER/SBM 随机图 | 连通性、最短路径、环、度数、拓扑排序,例如“最短路径 v3→v7?” | 数字、是/否、路径,例如 4 或 [v3, v5, v7] |
| **检索:从图中存储的内容检索答案** | | | |
| 知识图谱问答 | WebQSP[37], CWQ[26], GrailQA[7], MetaQA[39], KQA Pro[2] | 真实知识图谱,例如 Freebase, Wikidata | 多跳查找,例如“诺兰导演的电影中的演员?” | 实体/数字,例如 {DiCaprio, Bale} |
| 图增强检索 / 图检索 | STaRK[31], CRAG[35], GRBench[12] | 语料库+索引,例如 STaRK-PrimeKG | 检索然后回答,例如“药物 d 的副作用?” | 实体/事实/片段,例如来自 d 页面的片段 |
| **弱推理:单个节点(或端点对)就足够** | | | |
| 节点分类 | OFA[17], GLBench[15], GraphGPT[27] | 真实文本属性图,例如 ogbn-arxiv | 选择节点标签,例如“这篇论文的类别?” | 固定标签,例如 cs.LG |
| 单节点描述 | LLaGA[4] | 真实文本属性图,例如 ogbn-arxiv | “描述这篇论文”,例如“描述节点 v” | 关于一个节点的自由文本,例如 v 标题的释义 |
| 链接预测 | OFA[17], LLaGA[4], GraphGPT[27] | 真实文本属性图/知识图谱,例如 Cora, FB15k | 边 (u,v)?,例如“u 引用了 v 吗?” | 是/否,例如是 |
| **GraphInfer-Bench LLM 图推理** | | | |
| **GraphInfer-Bench** (我们的) | 任务 1:掩码节点预测;任务 2:关系描述;任务 3:主题总结;任务 4:异常检测;任务 5:社区检测 | 真实文本属性图(6个领域):学术引用、电子商务、临床引用、百科、专利引用、物理问答 | 掩码节点/关系/主题/异常点/社区,例如“将25篇论文按研究领域分区” | 开放式语言,例如 {0,3,8}: 信息论;{1,2,5,7}: 数值分析;{4,6}: 计算工程。*理由:* {0,3,8} 中的标题集中于编码和熵界... |
TAG: 文本属性图。KG: 知识图谱。
#### 贡献。
1. **一个专门用于图推理的基准。** 我们给出了一个与具体方法无关的定义(上述标准 (i)–(iii)),并构建了第一个针对此能力而非特定架构的基准,与算法模拟、节点分类、单节点描述、知识图谱问答和图增强检索不同。
2. **一个包含42,000个样本、覆盖六个领域和五项任务的数据集。** 六个文本属性图涵盖 ogbn-arxiv、PubMed、USPTO 专利、ogbn-products、WikiCS 和 Physics SE。五项任务跨越两个轴线。*描述*:T1 掩码节点预测(从其邻域恢复一个被遮住的节点),T2 关系描述(表征两个端点之间的关系),T3 主题总结(命名一个自我图的一致主题)。*比较*:T4 异常检测(识别不属于该组的节点),T5 社区检测(将一个自我图划分为一致的组)。每个样本通过四层质量门(脚本规则、双重70B裁决者、人类 κ 标定、结构去重),人工标注成本低。
3. **评估、结果及其对缩小差距的启示。** 在匹配的划分和统一的硬标签加 SBERT 余弦协议下,我们评估了四种方法家族(图-令牌对齐、零样本前沿 LLM、Graph2Text 监督微调、作为结构参考的普通 GNN)。**没有一个家族能弥合差距。** 普通 GNN 在每个任务上都匹配或击败了最强的基于 LLM 的方法,在社区检测上差距最大。**信号存在于图结构中。弥合差距是一个目标和解码问题,而非能力问题。**
## 2 相关工作
#### 现有的图问答基准。
我们扩展了表1 (https://arxiv.org/html/2606.11562#S1.T1) 中的参考文献。*算法模拟*:NLGraph[30]、GraCoRe[38]、GraphArena[28]、Talk-Like-a-Graph[6]、GraphWiz[3],以及 GraphInstruct[18]。*知识图谱问答*:WebQSP[26]、CWQ[26]、GrailQA[7]、MetaQA[39]、KQA Pro[2]。*图增强检索*:STaRK[31]、CRAG[35]、GRBench[12],以及两个 GraphRAGBench 变体[33,34]。*基于真实文本属性图的节点分类、单节点描述、链接预测*:OFA[17]、GLBench[15]、GraphGPT[27]、LLaGA[4],以及 GPT4Graph[8]、G-Retriever[9] 和 Chen 等人的 LLMs-as-Predictors / LLMs-as-Enhancers 研究[5]。与这些基准不同,**GraphInfer-Bench** 据我们所知是第一个针对图推理本身的基准。
#### LLM理解图的方法。
两种方法家族占主导地位。*图-令牌对齐*训练一个 GNN 编码器,并将其输出投影到 LLM 的输入空间,冻结或轻量微调 LLM。LLaGA[4]、GraphToken[23]、GraphGPT[27]、TEA-GLM[29]、RGLM[40]、GOFA[13] 和 InstructGLM[36] 在投影器的训练方式(PCA对齐、对比、重构、指令微调)上有所不同,但共享架构上的承诺:结构通过学习的图令牌进入 LLM。*Graph2Text* 直接将邻域序列化为文本并交给 LLM,LLM 要么零样本提示(前沿闭源模型),要么在图到文本目标上进行监督微调[6,8,5]。**GraphInfer-Bench** 在相同的任务上评估了这两个家族,同时将普通 GNN 作为结构参考,从而比较能够隔离哪种方法在推理能力上何处有效。
## 3 数据集和任务描述
基于上述识别的差距,**GraphInfer-Bench** 将推理测试操作化为五个任务,基于六个文本属性图。采样器生成66,000个候选(每个任务-领域单元2,200个)。一个四层质量控制管道过滤有缺陷的参考并去重观测到的图,之后每个单元上限为1,400个样本,按真实标签平衡,并划分为1,000训练、100验证和300测试。公开发布总计**42,000**个样本。下面我们描述原始数据源、任务分类法和质量控制管道。每领域的文本、完整任务设置及示例提示、验证细节见附录。
### 3.1 原始数据源
**GraphInfer-Bench** 基于六个公开的文本属性图构建,涵盖 GNN-LLM 文献中使用的图的主要家族(表2 (https://arxiv.org/html/2606.11562#S3.T2)):引文网络(ogbn-arxiv[11]、PubMed[24]、USPTO[14])、电子商务共同购买(ogbn-products[11])、百科链接(WikiCS[19])和物理问答图(Physics SE[25])。每个领域提供自然语言节点文本(标题、名称、描述)和结构上不同的边类型。为了构建(图,问题,答案)样本,我们采样以中枢节点(入度≥3且具有有效文本)为中心的2跳自我子图,每跳最多10个邻居。¹¹ 这种大小设置让我们能够在单一子图预算下比较图-令牌对齐和 Graph2Text 基线。更大的自我图一旦每个节点的标题被序列化,就会使 Graph2Text 的上下文窗口饱和。模型只接收节点标题。摘要和数据集标签被保留作为真实标签。每领域的描述见附录 I (https://arxiv.org/html/2606.11562#A9)。
表 2:**GraphInfer-Bench** 原始数据源,用于构建基准,*不是*最终发布的数据集(每个单元的样本数量见第3.2节)。
### 3.2 任务

图 1:**GraphInfer-Bench** 中五项图推理任务的分类。
**描述任务**(T1至T3)询问单个目标节点、边或局部主题。答案是一个短字符串,通过每任务硬准确率以及 SBERT-F1 评分。
- **T1: 掩码节点预测**
Q: 掩码节点0的主题?
A: “计算几何。”
R: 邻居覆盖聚集平面性与同时嵌入。
- **T2: 关系语义**
Q: 节点9是否引用了节点12?
A: “否。”
R: 节点9引用点定位工作,而非工作集树论文。
- **T3: 主题总结**
Q: 这个13篇论文的图的主题?
A: “分布式计算。”
R: 标题引用分布式流、负载均衡、并行性。
- **T4: 异常检测**
Q: 哪篇论文不相关?
A: 节点8: “异常点”。
R: 节点0-7是差分隐私工作,节点8不是。
- **T5: 社区检测**
Q: 按主题聚类节点。
A: “社区0: 计算机视觉”。
R: 聚类组包含分割与姿态估计论文。
图 1:**GraphInfer-Bench** 中五项图推理任务的分类。相似文章
GTBench:一个基于课程体系的图论数学研究助手大语言模型评估基准
论文介绍了GTBench,这是一个基于课程体系的基准,用于评估大语言模型在图论中作为数学研究助手的能力,包含63个问题,分为三个难度级别。它评估了五个前沿模型,发现性能随难度增加而下降,其中GPT-5在基础问题上近乎完美,但在研究生级别的证明上仅达到82%。
LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。
LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]
作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。
BLINKG:大语言模型集成知识图谱生成的基准测试
BLINKG 是一个基准测试,旨在评估大语言模型(LLM)从异构数据源构建知识图谱时的映射能力。它提供了一个标准化框架,用于评估 LLM 在数据模式与本体概念之间建立对应关系的有效性。
MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试
本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。