GraphInfer-Bench:在图上的LLM推理能力基准测试

arXiv cs.LG 论文

摘要

介绍了GraphInfer-Bench,这是一个基准测试,用于评估LLMs是否能够进行图推理——生成关于节点及其邻域的开放式答案,这些答案无法从单个节点或路径中检索到。实验表明,即使是最前沿的LLMs在这些任务上也落后于普通GNNs,揭示了一个能力差距。

arXiv:2606.11562v1 公告类型: 新 摘要:图分析是许多应用的基础,这些应用的答案无法从单个记录或沿路径检索:洗钱团伙、药物重定位、用户偏好和科学主题都是从节点及其邻域推断出来的。我们引入了GraphInfer-Bench,这是一个基准测试,用于评估LLMs是否能够进行这种图推理:生成一个没有单个节点支持且没有路径可检索的开放式答案。现有的图问答协议无法测试这种能力:算法模拟、节点分类、单节点描述、知识图谱问答和图RAG都允许从单个节点或沿路径检索答案。GraphInfer-Bench定义了沿描述(区域是什么)和比较(区域如何不同)的五项任务,每个任务都构建使得真实标签不在任何单个节点中。该版本包含来自六个真实世界图的42,000个样本,自动生成并通过四层质量控制协议筛选。我们针对相同的任务评估了四种方法族:图-标记对齐模型、零样本前沿闭源LLM、Graph2Text监督微调和作为结构参考的普通GNN。没有一种方法族能弥合差距。图-标记对齐部分处理了描述任务(关系、主题)但在比较任务上失败。前沿LLM在异常检测和社区划分方面领先于基于LLM的方法,但在掩码节点预测上落后。Graph2Text SFT在描述方面是最强的基于LLM的方法,但在比较上落后于前沿LLM。在所有任务中,普通GNN匹配或击败了最强的基于LLM的行,在社区检测上差距最大。GraphInfer-Bench揭示了图推理是一个开放的能力差距,而不是任何单一架构的属性。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:48

# GraphInfer-Bench:评估LLM在图上的推理能力 来源:https://arxiv.org/html/2606.11562

彭卓毅¹ 蒋靖洲¹ 顾翰林² 范立信² 杨毅¹  
¹香港科技大学 ²微众银行

###### 摘要

图分析支撑着许多应用,这些应用的答案无法从单个记录中查找,也无法沿着路径检索:洗钱团伙、药物重定位、用户偏好和科学主题都是从一个节点及其邻域中推断出来的。我们提出**GraphInfer-Bench**,这是一个用于评估LLM是否能够执行这种*图推理*的基准:生成一个没有单个节点支持、也没有任何路径能检索到的开放式答案。现有的图问答协议无法测试这种能力:算法模拟、节点分类、单节点描述、知识图谱问答和图增强检索(GraphRAG)都允许从单个节点或沿路径检索答案。**GraphInfer-Bench**定义了沿*描述*(区域是什么)和*比较*(区域如何不同)两个轴线的五项任务,每个任务的构建都确保真实标签不存在于任何单个节点中。发布版本包含42,000个样本,涵盖六个真实世界图,通过自动生成并经四层质量控制协议筛选。我们针对相同的任务评估了四种方法家族:图-令牌对齐模型、零样本前沿闭源LLM、Graph2Text监督微调,以及作为结构参考的普通GNN。没有一个方法家族能够弥合差距。图-令牌对齐部分处理了描述任务(关系、主题),但在比较任务上崩溃。前沿LLM在基于LLM的方法中在异常检测和社区划分上领先,但在掩码节点预测上落后。Graph2Text SFT在描述方面是最强的LLM方法,但在比较方面落后于前沿LLM。在每个任务上,普通GNN都匹配或击败了最强的LLM方法,在社区检测上差距最大。**GraphInfer-Bench**揭示了图推理是一个开放的差距,而非任何单一架构的属性。  
代码:https://github.com/graphinfer/GraphInfer-Bench。  
数据集:https://huggingface.co/datasets/graphinfer/graphinfer。

## 1 引言

图分析支撑着许多现实世界问题,这些问题的答案无法从单个记录中查找,也无法沿路径检索。一个洗钱团伙是通过跨多个账户的交易模式识别出来的[20 (https://arxiv.org/html/2606.11562#bib.bib20)]。一个药物重定位假设是通过对药物-基因-疾病关系的联合推理产生的[10 (https://arxiv.org/html/2606.11562#bib.bib10)]。用户的偏好是从过去交互的结构中推断出来的,而不是从任何单次购买中得出的[32 (https://arxiv.org/html/2606.11562#bib.bib32)]。一个科学主题是从许多论文的联合引用模式中解读出来的,而不是从任何一篇摘要中得到的[21 (https://arxiv.org/html/2606.11562#bib.bib21)]。这些答案都不存在于任何单个节点中:每个答案都必须从一个节点及其邻域中*推断*出来。图推理。

我们将**图推理**定义为:针对一个节点及其邻域的问题生成开放式答案,其中答案 (i) 不受任何单个节点内容的确定,(ii) 不受任何遍历值的确定(排除知识图谱问答风格的检索),并且 (iii) 需要联合读取边和节点文本,而非仅凭单一模态。**GraphInfer-Bench**衡量的是这种能力,而非任何特定架构。

图推理与查找和检索不同。*查找*返回节点自身的属性。*检索*返回通过图获得的预先存在的答案(知识图谱路径实体、某个节点页面中的片段)。*推理*两者都不是:识别聚类的一致主题、不属于该聚类的异常点、或一个连贯的划分,所有这些都需要开放式语言,这些语言不存在于任何单个节点中,也无法沿任何路径检索。

现有的图问答评估并未测试这一点。表1 (https://arxiv.org/html/2606.11562#S1.T1) 中的协议是查找或检索,而不是推理。算法模拟(NLGraph、GraphArena 及相关工作)是对合成图的结构化查找。节点分类、链接预测和单节点描述(LLaGA)是单节点任务。知识图谱问答(WebQSP、CWQ、GrailQA、MetaQA、KQA Pro)是路径遍历检索。图增强检索(STaRK、CRAG、GRBench)是由图索引的语料库检索。

**GraphInfer-Bench**针对六个真实世界图询问主题、异常点、划分和掩码内容,并根据确定性的结构真实标签进行评分。

表 1:目前使用的图问答评估,按 G(图)、Q(问题)、A(答案)三个轴组织。

| 任务 | G: 图 | Q: 问题 | A: 答案 |
|------|-------|---------|---------|
| **结构化查找:仅从图结构中获取答案** | | | |
| 算法模拟 | NLGraph[30], GraCoRe[38], GraphArena[28], Talk-Like-a-Graph[6], GraphWiz[3] | 合成图,例如 ER/SBM 随机图 | 连通性、最短路径、环、度数、拓扑排序,例如“最短路径 v3→v7?” | 数字、是/否、路径,例如 4 或 [v3, v5, v7] |
| **检索:从图中存储的内容检索答案** | | | |
| 知识图谱问答 | WebQSP[37], CWQ[26], GrailQA[7], MetaQA[39], KQA Pro[2] | 真实知识图谱,例如 Freebase, Wikidata | 多跳查找,例如“诺兰导演的电影中的演员?” | 实体/数字,例如 {DiCaprio, Bale} |
| 图增强检索 / 图检索 | STaRK[31], CRAG[35], GRBench[12] | 语料库+索引,例如 STaRK-PrimeKG | 检索然后回答,例如“药物 d 的副作用?” | 实体/事实/片段,例如来自 d 页面的片段 |
| **弱推理:单个节点(或端点对)就足够** | | | |
| 节点分类 | OFA[17], GLBench[15], GraphGPT[27] | 真实文本属性图,例如 ogbn-arxiv | 选择节点标签,例如“这篇论文的类别?” | 固定标签,例如 cs.LG |
| 单节点描述 | LLaGA[4] | 真实文本属性图,例如 ogbn-arxiv | “描述这篇论文”,例如“描述节点 v” | 关于一个节点的自由文本,例如 v 标题的释义 |
| 链接预测 | OFA[17], LLaGA[4], GraphGPT[27] | 真实文本属性图/知识图谱,例如 Cora, FB15k | 边 (u,v)?,例如“u 引用了 v 吗?” | 是/否,例如是 |
| **GraphInfer-Bench LLM 图推理** | | | |
| **GraphInfer-Bench** (我们的) | 任务 1:掩码节点预测;任务 2:关系描述;任务 3:主题总结;任务 4:异常检测;任务 5:社区检测 | 真实文本属性图(6个领域):学术引用、电子商务、临床引用、百科、专利引用、物理问答 | 掩码节点/关系/主题/异常点/社区,例如“将25篇论文按研究领域分区” | 开放式语言,例如 {0,3,8}: 信息论;{1,2,5,7}: 数值分析;{4,6}: 计算工程。*理由:* {0,3,8} 中的标题集中于编码和熵界... |

TAG: 文本属性图。KG: 知识图谱。

#### 贡献。

1. **一个专门用于图推理的基准。** 我们给出了一个与具体方法无关的定义(上述标准 (i)–(iii)),并构建了第一个针对此能力而非特定架构的基准,与算法模拟、节点分类、单节点描述、知识图谱问答和图增强检索不同。
2. **一个包含42,000个样本、覆盖六个领域和五项任务的数据集。** 六个文本属性图涵盖 ogbn-arxiv、PubMed、USPTO 专利、ogbn-products、WikiCS 和 Physics SE。五项任务跨越两个轴线。*描述*:T1 掩码节点预测(从其邻域恢复一个被遮住的节点),T2 关系描述(表征两个端点之间的关系),T3 主题总结(命名一个自我图的一致主题)。*比较*:T4 异常检测(识别不属于该组的节点),T5 社区检测(将一个自我图划分为一致的组)。每个样本通过四层质量门(脚本规则、双重70B裁决者、人类 κ 标定、结构去重),人工标注成本低。
3. **评估、结果及其对缩小差距的启示。** 在匹配的划分和统一的硬标签加 SBERT 余弦协议下,我们评估了四种方法家族(图-令牌对齐、零样本前沿 LLM、Graph2Text 监督微调、作为结构参考的普通 GNN)。**没有一个家族能弥合差距。** 普通 GNN 在每个任务上都匹配或击败了最强的基于 LLM 的方法,在社区检测上差距最大。**信号存在于图结构中。弥合差距是一个目标和解码问题,而非能力问题。**

## 2 相关工作

#### 现有的图问答基准。

我们扩展了表1 (https://arxiv.org/html/2606.11562#S1.T1) 中的参考文献。*算法模拟*:NLGraph[30]、GraCoRe[38]、GraphArena[28]、Talk-Like-a-Graph[6]、GraphWiz[3],以及 GraphInstruct[18]。*知识图谱问答*:WebQSP[26]、CWQ[26]、GrailQA[7]、MetaQA[39]、KQA Pro[2]。*图增强检索*:STaRK[31]、CRAG[35]、GRBench[12],以及两个 GraphRAGBench 变体[33,34]。*基于真实文本属性图的节点分类、单节点描述、链接预测*:OFA[17]、GLBench[15]、GraphGPT[27]、LLaGA[4],以及 GPT4Graph[8]、G-Retriever[9] 和 Chen 等人的 LLMs-as-Predictors / LLMs-as-Enhancers 研究[5]。与这些基准不同,**GraphInfer-Bench** 据我们所知是第一个针对图推理本身的基准。

#### LLM理解图的方法。

两种方法家族占主导地位。*图-令牌对齐*训练一个 GNN 编码器,并将其输出投影到 LLM 的输入空间,冻结或轻量微调 LLM。LLaGA[4]、GraphToken[23]、GraphGPT[27]、TEA-GLM[29]、RGLM[40]、GOFA[13] 和 InstructGLM[36] 在投影器的训练方式(PCA对齐、对比、重构、指令微调)上有所不同,但共享架构上的承诺:结构通过学习的图令牌进入 LLM。*Graph2Text* 直接将邻域序列化为文本并交给 LLM,LLM 要么零样本提示(前沿闭源模型),要么在图到文本目标上进行监督微调[6,8,5]。**GraphInfer-Bench** 在相同的任务上评估了这两个家族,同时将普通 GNN 作为结构参考,从而比较能够隔离哪种方法在推理能力上何处有效。

## 3 数据集和任务描述

基于上述识别的差距,**GraphInfer-Bench** 将推理测试操作化为五个任务,基于六个文本属性图。采样器生成66,000个候选(每个任务-领域单元2,200个)。一个四层质量控制管道过滤有缺陷的参考并去重观测到的图,之后每个单元上限为1,400个样本,按真实标签平衡,并划分为1,000训练、100验证和300测试。公开发布总计**42,000**个样本。下面我们描述原始数据源、任务分类法和质量控制管道。每领域的文本、完整任务设置及示例提示、验证细节见附录。

### 3.1 原始数据源

**GraphInfer-Bench** 基于六个公开的文本属性图构建,涵盖 GNN-LLM 文献中使用的图的主要家族(表2 (https://arxiv.org/html/2606.11562#S3.T2)):引文网络(ogbn-arxiv[11]、PubMed[24]、USPTO[14])、电子商务共同购买(ogbn-products[11])、百科链接(WikiCS[19])和物理问答图(Physics SE[25])。每个领域提供自然语言节点文本(标题、名称、描述)和结构上不同的边类型。为了构建(图,问题,答案)样本,我们采样以中枢节点(入度≥3且具有有效文本)为中心的2跳自我子图,每跳最多10个邻居。¹¹ 这种大小设置让我们能够在单一子图预算下比较图-令牌对齐和 Graph2Text 基线。更大的自我图一旦每个节点的标题被序列化,就会使 Graph2Text 的上下文窗口饱和。模型只接收节点标题。摘要和数据集标签被保留作为真实标签。每领域的描述见附录 I (https://arxiv.org/html/2606.11562#A9)。

表 2:**GraphInfer-Bench** 原始数据源,用于构建基准,*不是*最终发布的数据集(每个单元的样本数量见第3.2节)。

### 3.2 任务

![图推理任务](https://arxiv.org/html/2606.11562/x1.png)  
图 1:**GraphInfer-Bench** 中五项图推理任务的分类。

**描述任务**(T1至T3)询问单个目标节点、边或局部主题。答案是一个短字符串,通过每任务硬准确率以及 SBERT-F1 评分。

- **T1: 掩码节点预测**  
  Q: 掩码节点0的主题?  
  A: “计算几何。”  
  R: 邻居覆盖聚集平面性与同时嵌入。

- **T2: 关系语义**  
  Q: 节点9是否引用了节点12?  
  A: “否。”  
  R: 节点9引用点定位工作,而非工作集树论文。

- **T3: 主题总结**  
  Q: 这个13篇论文的图的主题?  
  A: “分布式计算。”  
  R: 标题引用分布式流、负载均衡、并行性。

- **T4: 异常检测**  
  Q: 哪篇论文不相关?  
  A: 节点8: “异常点”。  
  R: 节点0-7是差分隐私工作,节点8不是。

- **T5: 社区检测**  
  Q: 按主题聚类节点。  
  A: “社区0: 计算机视觉”。  
  R: 聚类组包含分割与姿态估计论文。

图 1:**GraphInfer-Bench** 中五项图推理任务的分类。

相似文章

GTBench:一个基于课程体系的图论数学研究助手大语言模型评估基准

arXiv cs.AI

论文介绍了GTBench,这是一个基于课程体系的基准,用于评估大语言模型在图论中作为数学研究助手的能力,包含63个问题,分为三个难度级别。它评估了五个前沿模型,发现性能随难度增加而下降,其中GPT-5在基础问题上近乎完美,但在研究生级别的证明上仅达到82%。

LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]

Reddit r/MachineLearning

作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。

BLINKG:大语言模型集成知识图谱生成的基准测试

arXiv cs.AI

BLINKG 是一个基准测试,旨在评估大语言模型(LLM)从异构数据源构建知识图谱时的映射能力。它提供了一个标准化框架,用于评估 LLM 在数据模式与本体概念之间建立对应关系的有效性。