GraphInfer-Bench：在图上的LLM推理能力基准测试

arXiv cs.LG 2026/06/11 04:00 论文

摘要

介绍了GraphInfer-Bench，这是一个基准测试，用于评估LLMs是否能够进行图推理——生成关于节点及其邻域的开放式答案，这些答案无法从单个节点或路径中检索到。实验表明，即使是最前沿的LLMs在这些任务上也落后于普通GNNs，揭示了一个能力差距。

arXiv:2606.11562v1 公告类型: 新摘要：图分析是许多应用的基础，这些应用的答案无法从单个记录或沿路径检索：洗钱团伙、药物重定位、用户偏好和科学主题都是从节点及其邻域推断出来的。我们引入了GraphInfer-Bench，这是一个基准测试，用于评估LLMs是否能够进行这种图推理：生成一个没有单个节点支持且没有路径可检索的开放式答案。现有的图问答协议无法测试这种能力：算法模拟、节点分类、单节点描述、知识图谱问答和图RAG都允许从单个节点或沿路径检索答案。GraphInfer-Bench定义了沿描述（区域是什么）和比较（区域如何不同）的五项任务，每个任务都构建使得真实标签不在任何单个节点中。该版本包含来自六个真实世界图的42,000个样本，自动生成并通过四层质量控制协议筛选。我们针对相同的任务评估了四种方法族：图-标记对齐模型、零样本前沿闭源LLM、Graph2Text监督微调和作为结构参考的普通GNN。没有一种方法族能弥合差距。图-标记对齐部分处理了描述任务（关系、主题）但在比较任务上失败。前沿LLM在异常检测和社区划分方面领先于基于LLM的方法，但在掩码节点预测上落后。Graph2Text SFT在描述方面是最强的基于LLM的方法，但在比较上落后于前沿LLM。在所有任务中，普通GNN匹配或击败了最强的基于LLM的行，在社区检测上差距最大。GraphInfer-Bench揭示了图推理是一个开放的能力差距，而不是任何单一架构的属性。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:48

# GraphInfer-Bench：评估LLM在图上的推理能力 来源：https://arxiv.org/html/2606.11562

彭卓毅¹ 蒋靖洲¹ 顾翰林² 范立信² 杨毅¹  
¹香港科技大学 ²微众银行

###### 摘要

图分析支撑着许多应用，这些应用的答案无法从单个记录中查找，也无法沿着路径检索：洗钱团伙、药物重定位、用户偏好和科学主题都是从一个节点及其邻域中推断出来的。我们提出**GraphInfer-Bench**，这是一个用于评估LLM是否能够执行这种*图推理*的基准：生成一个没有单个节点支持、也没有任何路径能检索到的开放式答案。现有的图问答协议无法测试这种能力：算法模拟、节点分类、单节点描述、知识图谱问答和图增强检索（GraphRAG）都允许从单个节点或沿路径检索答案。**GraphInfer-Bench**定义了沿*描述*（区域是什么）和*比较*（区域如何不同）两个轴线的五项任务，每个任务的构建都确保真实标签不存在于任何单个节点中。发布版本包含42,000个样本，涵盖六个真实世界图，通过自动生成并经四层质量控制协议筛选。我们针对相同的任务评估了四种方法家族：图-令牌对齐模型、零样本前沿闭源LLM、Graph2Text监督微调，以及作为结构参考的普通GNN。没有一个方法家族能够弥合差距。图-令牌对齐部分处理了描述任务（关系、主题），但在比较任务上崩溃。前沿LLM在基于LLM的方法中在异常检测和社区划分上领先，但在掩码节点预测上落后。Graph2Text SFT在描述方面是最强的LLM方法，但在比较方面落后于前沿LLM。在每个任务上，普通GNN都匹配或击败了最强的LLM方法，在社区检测上差距最大。**GraphInfer-Bench**揭示了图推理是一个开放的差距，而非任何单一架构的属性。  
代码：https://github.com/graphinfer/GraphInfer-Bench。  
数据集：https://huggingface.co/datasets/graphinfer/graphinfer。

## 1 引言

图分析支撑着许多现实世界问题，这些问题的答案无法从单个记录中查找，也无法沿路径检索。一个洗钱团伙是通过跨多个账户的交易模式识别出来的[20 (https://arxiv.org/html/2606.11562#bib.bib20)]。一个药物重定位假设是通过对药物-基因-疾病关系的联合推理产生的[10 (https://arxiv.org/html/2606.11562#bib.bib10)]。用户的偏好是从过去交互的结构中推断出来的，而不是从任何单次购买中得出的[32 (https://arxiv.org/html/2606.11562#bib.bib32)]。一个科学主题是从许多论文的联合引用模式中解读出来的，而不是从任何一篇摘要中得到的[21 (https://arxiv.org/html/2606.11562#bib.bib21)]。这些答案都不存在于任何单个节点中：每个答案都必须从一个节点及其邻域中*推断*出来。图推理。

我们将**图推理**定义为：针对一个节点及其邻域的问题生成开放式答案，其中答案 (i) 不受任何单个节点内容的确定，(ii) 不受任何遍历值的确定（排除知识图谱问答风格的检索），并且 (iii) 需要联合读取边和节点文本，而非仅凭单一模态。**GraphInfer-Bench**衡量的是这种能力，而非任何特定架构。

图推理与查找和检索不同。*查找*返回节点自身的属性。*检索*返回通过图获得的预先存在的答案（知识图谱路径实体、某个节点页面中的片段）。*推理*两者都不是：识别聚类的一致主题、不属于该聚类的异常点、或一个连贯的划分，所有这些都需要开放式语言，这些语言不存在于任何单个节点中，也无法沿任何路径检索。

现有的图问答评估并未测试这一点。表1 (https://arxiv.org/html/2606.11562#S1.T1) 中的协议是查找或检索，而不是推理。算法模拟（NLGraph、GraphArena 及相关工作）是对合成图的结构化查找。节点分类、链接预测和单节点描述（LLaGA）是单节点任务。知识图谱问答（WebQSP、CWQ、GrailQA、MetaQA、KQA Pro）是路径遍历检索。图增强检索（STaRK、CRAG、GRBench）是由图索引的语料库检索。

**GraphInfer-Bench**针对六个真实世界图询问主题、异常点、划分和掩码内容，并根据确定性的结构真实标签进行评分。

表 1：目前使用的图问答评估，按 G（图）、Q（问题）、A（答案）三个轴组织。

| 任务 | G: 图 | Q: 问题 | A: 答案 |
|------|-------|---------|---------|
| **结构化查找：仅从图结构中获取答案** | | | |
| 算法模拟 | NLGraph[30], GraCoRe[38], GraphArena[28], Talk-Like-a-Graph[6], GraphWiz[3] | 合成图，例如 ER/SBM 随机图 | 连通性、最短路径、环、度数、拓扑排序，例如“最短路径 v3→v7？” | 数字、是/否、路径，例如 4 或 [v3, v5, v7] |
| **检索：从图中存储的内容检索答案** | | | |
| 知识图谱问答 | WebQSP[37], CWQ[26], GrailQA[7], MetaQA[39], KQA Pro[2] | 真实知识图谱，例如 Freebase, Wikidata | 多跳查找，例如“诺兰导演的电影中的演员？” | 实体/数字，例如 {DiCaprio, Bale} |
| 图增强检索 / 图检索 | STaRK[31], CRAG[35], GRBench[12] | 语料库+索引，例如 STaRK-PrimeKG | 检索然后回答，例如“药物 d 的副作用？” | 实体/事实/片段，例如来自 d 页面的片段 |
| **弱推理：单个节点（或端点对）就足够** | | | |
| 节点分类 | OFA[17], GLBench[15], GraphGPT[27] | 真实文本属性图，例如 ogbn-arxiv | 选择节点标签，例如“这篇论文的类别？” | 固定标签，例如 cs.LG |
| 单节点描述 | LLaGA[4] | 真实文本属性图，例如 ogbn-arxiv | “描述这篇论文”，例如“描述节点 v” | 关于一个节点的自由文本，例如 v 标题的释义 |
| 链接预测 | OFA[17], LLaGA[4], GraphGPT[27] | 真实文本属性图/知识图谱，例如 Cora, FB15k | 边 (u,v)？，例如“u 引用了 v 吗？” | 是/否，例如是 |
| **GraphInfer-Bench LLM 图推理** | | | |
| **GraphInfer-Bench** (我们的) | 任务 1：掩码节点预测；任务 2：关系描述；任务 3：主题总结；任务 4：异常检测；任务 5：社区检测 | 真实文本属性图（6个领域）：学术引用、电子商务、临床引用、百科、专利引用、物理问答 | 掩码节点/关系/主题/异常点/社区，例如“将25篇论文按研究领域分区” | 开放式语言，例如 {0,3,8}: 信息论；{1,2,5,7}: 数值分析；{4,6}: 计算工程。*理由：* {0,3,8} 中的标题集中于编码和熵界... |

TAG: 文本属性图。KG: 知识图谱。

#### 贡献。

1. **一个专门用于图推理的基准。** 我们给出了一个与具体方法无关的定义（上述标准 (i)–(iii)），并构建了第一个针对此能力而非特定架构的基准，与算法模拟、节点分类、单节点描述、知识图谱问答和图增强检索不同。
2. **一个包含42,000个样本、覆盖六个领域和五项任务的数据集。** 六个文本属性图涵盖 ogbn-arxiv、PubMed、USPTO 专利、ogbn-products、WikiCS 和 Physics SE。五项任务跨越两个轴线。*描述*：T1 掩码节点预测（从其邻域恢复一个被遮住的节点），T2 关系描述（表征两个端点之间的关系），T3 主题总结（命名一个自我图的一致主题）。*比较*：T4 异常检测（识别不属于该组的节点），T5 社区检测（将一个自我图划分为一致的组）。每个样本通过四层质量门（脚本规则、双重70B裁决者、人类 κ 标定、结构去重），人工标注成本低。
3. **评估、结果及其对缩小差距的启示。** 在匹配的划分和统一的硬标签加 SBERT 余弦协议下，我们评估了四种方法家族（图-令牌对齐、零样本前沿 LLM、Graph2Text 监督微调、作为结构参考的普通 GNN）。**没有一个家族能弥合差距。** 普通 GNN 在每个任务上都匹配或击败了最强的基于 LLM 的方法，在社区检测上差距最大。**信号存在于图结构中。弥合差距是一个目标和解码问题，而非能力问题。**

## 2 相关工作

#### 现有的图问答基准。

我们扩展了表1 (https://arxiv.org/html/2606.11562#S1.T1) 中的参考文献。*算法模拟*：NLGraph[30]、GraCoRe[38]、GraphArena[28]、Talk-Like-a-Graph[6]、GraphWiz[3]，以及 GraphInstruct[18]。*知识图谱问答*：WebQSP[26]、CWQ[26]、GrailQA[7]、MetaQA[39]、KQA Pro[2]。*图增强检索*：STaRK[31]、CRAG[35]、GRBench[12]，以及两个 GraphRAGBench 变体[33,34]。*基于真实文本属性图的节点分类、单节点描述、链接预测*：OFA[17]、GLBench[15]、GraphGPT[27]、LLaGA[4]，以及 GPT4Graph[8]、G-Retriever[9] 和 Chen 等人的 LLMs-as-Predictors / LLMs-as-Enhancers 研究[5]。与这些基准不同，**GraphInfer-Bench** 据我们所知是第一个针对图推理本身的基准。

#### LLM理解图的方法。

两种方法家族占主导地位。*图-令牌对齐*训练一个 GNN 编码器，并将其输出投影到 LLM 的输入空间，冻结或轻量微调 LLM。LLaGA[4]、GraphToken[23]、GraphGPT[27]、TEA-GLM[29]、RGLM[40]、GOFA[13] 和 InstructGLM[36] 在投影器的训练方式（PCA对齐、对比、重构、指令微调）上有所不同，但共享架构上的承诺：结构通过学习的图令牌进入 LLM。*Graph2Text* 直接将邻域序列化为文本并交给 LLM，LLM 要么零样本提示（前沿闭源模型），要么在图到文本目标上进行监督微调[6,8,5]。**GraphInfer-Bench** 在相同的任务上评估了这两个家族，同时将普通 GNN 作为结构参考，从而比较能够隔离哪种方法在推理能力上何处有效。

## 3 数据集和任务描述

基于上述识别的差距，**GraphInfer-Bench** 将推理测试操作化为五个任务，基于六个文本属性图。采样器生成66,000个候选（每个任务-领域单元2,200个）。一个四层质量控制管道过滤有缺陷的参考并去重观测到的图，之后每个单元上限为1,400个样本，按真实标签平衡，并划分为1,000训练、100验证和300测试。公开发布总计**42,000**个样本。下面我们描述原始数据源、任务分类法和质量控制管道。每领域的文本、完整任务设置及示例提示、验证细节见附录。

### 3.1 原始数据源

**GraphInfer-Bench** 基于六个公开的文本属性图构建，涵盖 GNN-LLM 文献中使用的图的主要家族（表2 (https://arxiv.org/html/2606.11562#S3.T2)）：引文网络（ogbn-arxiv[11]、PubMed[24]、USPTO[14]）、电子商务共同购买（ogbn-products[11]）、百科链接（WikiCS[19]）和物理问答图（Physics SE[25]）。每个领域提供自然语言节点文本（标题、名称、描述）和结构上不同的边类型。为了构建（图，问题，答案）样本，我们采样以中枢节点（入度≥3且具有有效文本）为中心的2跳自我子图，每跳最多10个邻居。¹¹ 这种大小设置让我们能够在单一子图预算下比较图-令牌对齐和 Graph2Text 基线。更大的自我图一旦每个节点的标题被序列化，就会使 Graph2Text 的上下文窗口饱和。模型只接收节点标题。摘要和数据集标签被保留作为真实标签。每领域的描述见附录 I (https://arxiv.org/html/2606.11562#A9)。

表 2：**GraphInfer-Bench** 原始数据源，用于构建基准，*不是*最终发布的数据集（每个单元的样本数量见第3.2节）。

### 3.2 任务

![图推理任务](https://arxiv.org/html/2606.11562/x1.png)  
图 1：**GraphInfer-Bench** 中五项图推理任务的分类。

**描述任务**（T1至T3）询问单个目标节点、边或局部主题。答案是一个短字符串，通过每任务硬准确率以及 SBERT-F1 评分。

- **T1: 掩码节点预测**  
  Q: 掩码节点0的主题？  
  A: “计算几何。”  
  R: 邻居覆盖聚集平面性与同时嵌入。

- **T2: 关系语义**  
  Q: 节点9是否引用了节点12？  
  A: “否。”  
  R: 节点9引用点定位工作，而非工作集树论文。

- **T3: 主题总结**  
  Q: 这个13篇论文的图的主题？  
  A: “分布式计算。”  
  R: 标题引用分布式流、负载均衡、并行性。

- **T4: 异常检测**  
  Q: 哪篇论文不相关？  
  A: 节点8: “异常点”。  
  R: 节点0-7是差分隐私工作，节点8不是。

- **T5: 社区检测**  
  Q: 按主题聚类节点。  
  A: “社区0: 计算机视觉”。  
  R: 聚类组包含分割与姿态估计论文。

图 1：**GraphInfer-Bench** 中五项图推理任务的分类。

GraphInfer-Bench：在图上的LLM推理能力基准测试

相似文章

GTBench：一个基于课程体系的图论数学研究助手大语言模型评估基准

LinAlg-Bench：揭示大语言模型数学推理中结构性失败模式的诊断性基准

LLM 排名并非阶梯：来自传递性基准图的实验结果 [D]

BLINKG：大语言模型集成知识图谱生成的基准测试

MHGraphBench：基于知识图谱的大语言模型心理健康知识基准测试

提交意见反馈