GATHER：面向零样本细胞类型注释的以汇聚为中心的超实体检索

arXiv cs.CL 2026/05/08 04:00 论文

摘要

本文介绍了 GATHER，这是一种基于知识图谱的以汇聚为中心的检索方法，用于零样本细胞类型注释。与现有的 KG-RAG 基线方法相比，该方法提高了准确性并降低了大语言模型（LLM）的成本。

arXiv:2605.06403v1 公告类型：新论文摘要：零样本单细胞细胞类型注释旨在在不进行任何训练的情况下，仅根据给定的一组表达基因来确定细胞的类型。现有的基于知识图谱的检索增强生成（RAG）方法通过从源实体扩展并依赖迭代的 LLM 推理来检索证据。然而，在这种设定下，每个查询包含数十到数百个基因，其中没有单个基因具有决定性作用，标签仅从这些基因的共同出现中涌现。此类超实体查询从根本上挑战了局部的、逐个实体的探索策略，后者从单个基因出发进行推理，导致可扩展性差且 LLM 成本高昂。我们提出了 GATHER（Graph-Aware Traversal with Hyper-Entity Retrieval，即具备超实体检索的感知图谱遍历），这是一种专为超实体查询设计的以汇聚为中心的检索器。它执行全局多源图谱遍历，并识别拓扑汇聚点——即许多输入基因共同可达的节点。这些汇聚节点作为高信息的超实体，能够捕捉实体间的协同效应。通过结合节点重要性和路径重要性评分，GATHER 在检索阶段完全无需 LLM 参与即可选择信息丰富的证据。在自建的以细胞为中心的生物知识图谱（VCKG）上实例化后，GATHER 在两个数据集（Immune 和 Lung）上优于强大的 KG-RAG 基线方法（ToG、ToG-2、RoG、PoG），实现了最高的精确匹配准确率（分别为 27.45% 和 59.64%），每个样本仅需一次 LLM 调用，而 KG-RAG 基线方法则需要 2 到 61 次调用。我们的结果表明，汇聚节点将多实体信号压缩为紧凑且高信息的证据，其单条信息量高于多跳路径，为局部逐个实体推理提供了一种高效的全局替代方案。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:54

# GATHER：面向零样本细胞类型注释的以收敛为中心的多实体检索
来源：https://arxiv.org/html/2605.06403
\(2026\)

###### 摘要

零样本单细胞类型注释旨在从给定的一组表达基因中确定细胞的类型，而无需任何训练。现有的基于知识图谱的 RAG（检索增强生成）方法通过从源实体扩展并依赖迭代的大型语言模型（LLM）推理来检索证据。然而，在这种设置下，每个查询包含几十到几百个基因，其中没有单个基因是决定性的，标签仅从它们的集体共现中产生。这种多实体（hyper-entity）查询从根本上挑战了局部、逐实体的探索策略，这些策略从单个基因出发进行推理，导致可扩展性差且 LLM 成本高昂。我们提出了 GATHER（Graph-Aware Traversal with Hyper-Entity Retrieval，一种带有超实体检索的图感知遍历方法），这是一种专为多实体查询设计的以收敛为中心的检索器。它执行全局多源图遍历，并识别拓扑收敛点——即可以从许多输入基因共同到达的节点。这些收敛节点充当高信息量的多实体，捕捉实体间的协同作用。通过结合节点重要性和路径重要性评分，GATHER 在选择有信息量的证据时完全不需要 LLM 参与。在自建的以细胞为中心的生物学知识图谱（VCKG）上实例化后，GATHER 在两个数据集（Immune 和 Lung）上优于强大的 KG-RAG 基线方法（ToG, ToG-2, RoG, PoG），仅用每次样本一次 LLM 调用就达到了最高的精确匹配准确率（分别为 27.45% 和 59.64%），而 KG-RAG 基线需要 2-61 次调用。我们的结果表明，收敛节点将多实体信号压缩为紧凑、高信息量的证据，每项证据比多跳路径传递更多信息，为局部逐实体推理提供了一种高效的全局替代方案。

多实体检索；知识图谱 RAG；以收敛为中心的检索；细胞类型注释

††journalyear:2026††copyright:cc††conference:第49届国际 ACM SIGIR 信息检索研究与发展会议论文集；2026年7月20–24日；澳大利亚维多利亚州墨尔本††booktitle:第49届国际 ACM SIGIR 信息检索研究与发展会议论文集（SIGIR ’26），2026年7月20–24日，澳大利亚维多利亚州墨尔本††isbn:979-8-4007-2599-9/2026/07††doi:10.1145/3805712.3809935††ccs:信息系统 检索模型和排序††ccs:计算方法论 知识表示与推理††ccs:应用计算 生物信息学

## 1\. 引言

单细胞类型注释（Zhang et al., 2019 (https://arxiv.org/html/2605.06403#bib.bib23); Aran et al., 2019 (https://arxiv.org/html/2605.06403#bib.bib3); Pasquini et al., 2021 (https://arxiv.org/html/2605.06403#bib.bib17)）旨在根据细胞的基因表达谱分配细胞类型，这是计算生物学的基础，使下游分析如细胞类型发现和疾病机制研究成为可能。给定细胞的基因表达谱，该任务依赖于许多基因的*联合表达模式*，而不是任何单个标记基因。因此，预测信号来源于几十到几百个基因之间的*全局相互作用*。

诸如 scGPT（Cui et al., 2024 (https://arxiv.org/html/2605.06403#bib.bib8)）、scBERT（Yang et al., 2022 (https://arxiv.org/html/2605.06403#bib.bib22)）和 Geneformer（Theodoris et al., 2023 (https://arxiv.org/html/2605.06403#bib.bib21)）等监督式基础模型实现了较高的准确性，但作为黑盒运行，限制了可解释性。在无训练设置中，大型语言模型（LLM）（Brown et al., 2020 (https://arxiv.org/html/2605.06403#bib.bib5); Achiam et al., 2023 (https://arxiv.org/html/2605.06403#bib.bib2)）提供了可解释的推理，但存在领域知识不精确的问题（Hou and Ji, 2024 (https://arxiv.org/html/2605.06403#bib.bib11); Zhao et al., 2024 (https://arxiv.org/html/2605.06403#bib.bib24)）。因此，检索增强生成（RAG）（Lewis et al., 2020 (https://arxiv.org/html/2605.06403#bib.bib13); Fan et al., 2024 (https://arxiv.org/html/2605.06403#bib.bib10)）已成为一种有希望的范式，用于用结构化知识夯实 LLM 的基础。

然而，将 RAG 应用于细胞类型注释引入了一个关键挑战：每个查询由几十到几百个基因组成，在如此大量的实体上有效利用外部知识图谱变得非平凡。核心问题是如何在共同考虑所有源实体的同时整合结构化知识。现有的基于知识图谱的 RAG 方法（Pan et al., 2024 (https://arxiv.org/html/2605.06403#bib.bib16); Zhu et al., 2024 (https://arxiv.org/html/2605.06403#bib.bib25)），如 ToG（Sun et al., 2024 (https://arxiv.org/html/2605.06403#bib.bib19)）和 PoG（Tan et al., 2025 (https://arxiv.org/html/2605.06403#bib.bib20)），主要采用*局部扩展*范式。它们从每个源实体独立开始，探索相邻节点，并将检索到的路径作为单独的证据聚合。虽然这种方法对少量实体的查询有效，但在多实体设置中变得有问题。首先，独立扩展会碎片化集体信号，未能显式建模多个实体之间的相互作用。其次，搜索和 LLM 交互成本随源实体数量、扩展宽度和深度迅速增加。

为了解决这些局限性，我们提出了 GATHER（Graph-Aware Traversal with Hyper-Entity Retrieval），它将重心从局部扩展转移到全局收敛范式。GATHER 不再从每个实体分别进行推理，而是识别重要的*收敛点*——即可以从许多源实体共同到达的节点，这些节点作为高信息的*多实体*。这些节点自然地捕捉了基因之间的结构相互作用，并作为综合证据。图 1 (https://arxiv.org/html/2605.06403#S1.F1) 对比了这种收敛检索模式与分散的逐实体扩展。

我们通过三个阶段的过程获得这些多实体。首先，我们执行多源图遍历，同时从所有输入实体传播信号。其次，我们使用秩和拓扑感知分数对候选收敛节点进行排名，选择最有信息量的多实体。选定的节点随后传递给 LLM 进行最终推理。

我们在自建的以细胞为中心的生物学知识图谱上实例化 GATHER，并将其应用于零样本细胞类型注释。在两个数据集（Immune 和 Lung）上的实验表明，GATHER 仅用每次样本一次 LLM 调用就达到了最高的精确匹配准确率（27.45% 和 59.64%），优于所有 KG-RAG 基线，同时使用的 LLM 调用次数比 KG-RAG 基线少 2-61 倍。这些结果表明，收敛节点将多实体信号压缩为紧凑、高信息量的证据，每项证据比多跳路径传递更多信息，使以收敛为中心的检索成为多实体推理的有效且高效的原则。代码可在 https://github.com/SUAT-AIRI/GATHER 获取。

参考图注
图 1\. 多实体查询的分散与收敛检索。（a）分散：由 LLM 引导的逐实体扩展。（b）收敛（GATHER）：识别拓扑收敛点的多源遍历。多实体查询中分散的逐实体图扩展与 GATHER 的收敛多源遍历之间的比较。

## 2\. 方法

### 2.1\. 任务公式化

我们在 RAG 框架下考虑零样本细胞类型注释。我们在无训练意义上使用零样本：没有模型在评估数据集的标记细胞上进行训练或微调。该方法仍然依赖于 VCKG 中的策展先验知识和排名基因列表，因此最好被理解为知识驱动的无训练推理。给定细胞的基因表达谱，我们构建一个细胞句子 $S=\{g_1,...,g_n\}$ 遵循 Cell2Sentence（Rizvi et al., 2025 (https://arxiv.org/html/2605.06403#bib.bib18)），其中基因按判别力排序。我们将基因符号归一化为 VCKG 基因节点符号和同义词，并将它们映射到规范基因节点。过滤掉无信息量的持家基因（例如，RPL\*, MT-\*）和没有匹配节点的符号，产生接地基因集 $\tilde{S}$。目标是预测细胞类型 $c^* \in C$，其中 $C$ 由细胞本体定义。

在 RAG 范式中，预测包括两个阶段：(i) 从知识图谱中检索相关知识，以及 (ii) 对检索到的证据进行基于 LLM 的推理。

如引言所述，多实体查询与少量实体设置根本不同：正确的细胞类型源于许多基因的*联合支持*。因此，我们将检索重新表述为*多源收敛问题*：目标不是独立地从每个实体扩展，而是识别由 $\tilde{S}$ 中多个基因共同支持的图节点。

### 2.2\. GATHER：以收敛为中心的检索

基于这种重新表述，我们提出了 GATHER，这是一种专为多实体查询设计的检索算法，如图 2 (https://arxiv.org/html/2605.06403#S2.F2) 所示。GATHER 不从每个基因进行局部扩展，而是识别*拓扑收敛点*——即从许多源基因接收强结构支持的节点。这些节点充当*多实体*，作为综合证据，捕捉基因之间的全局相互作用。在这里，多实体不是新的生物实体类型；它表示一个检索到的图节点，其相关性由一组源实体的联合支持定义，而不是由单个源定义。

GATHER 通过三个紧凑阶段获得这些多实体：(1) 多源遍历，从接地基因通过图传播并记录共享可达性模式；(2) 基因加权，结合基因秩与图特异性；以及 (3) 收敛评分，聚合跳数分箱支持以选择最终证据节点。

#### 2.2.1\. 阶段 1：多源图遍历

对于每个 $g \in \tilde{S}$，我们以关系不可知的方式（所有边类型，双向）遍历知识图谱最多 $k$ 跳。语义类型约束防止相同类型的连续节点，避免退化链。

关键的是，来自所有基因的遍历同时进行。对于每个发现的目标节点 $t$（候选细胞类型节点），我们记录其跳数分箱支持：

(1) $S_h(t) = \{g \in \tilde{S} \mid g \text{ 在恰好 } h \text{ 跳内到达 } t \}$.

通过短路径从许多基因共同到达的节点自然成为候选收敛点。

#### 2.2.2\. 阶段 2：上下文感知基因加权

阶段 1 确定了哪些基因可以支持每个候选目标，但原始支持计数平等对待所有基因。这是不可取的，因为细胞句子中排名靠前的基因更具判别力，而广泛连接的基因可能到达许多目标并提供较少具体的证据。因此，我们为每个基因 $g$ 分配一个组合权重，包含两个组成部分。

基于秩的重要性：

(2) $w_g^{\text{rank}} = \frac{1}{\log_2(\text{rank}(g)+2)}$.

图特异性（IDF 风格）：

(3) $w_g^{\text{IDF}} = \log\left(\frac{|\mathcal{T}|}{\text{df}(g)+1}\right)$,

其中 $\text{df}(g)$ 是从 $g$ 可达的候选目标数量，$\mathcal{T}$ 是所有发现目标的并集。

秩项有利于细胞句子中的显著基因，而 IDF 项降低了到达许多候选目标的基因的权重。两者结合，使随后的收敛分数依赖于选择性的高秩支持，而不是原始可达性。

#### 2.2.3\. 阶段 3：拓扑感知收敛评分

我们通过聚合加权支持来对每个候选节点 $t$ 进行排名：

(4) $\text{Score}(t) = \sum_{h=1}^{k} \alpha_h \sum_{g \in S_h(t)} w_g^{\text{rank}} \cdot w_g^{\text{IDF}}$,

其中 $\alpha_h$ 是偏好短路径的跳衰减权重。

该评分函数直接操作化收敛原则：通过短路径由许多有信息量和具体的基因共同支持的节点获得更高的分数。

参考图注
图 2\. GATHER 的三个阶段：(1) 从接地基因集 $\tilde{S}$ 进行多源图遍历，其中 $g$ 表示源基因，$t$ 表示候选目标；(2) 上下文感知基因加权（节点大小编码 $w_g^{\text{rank}}$；颜色深度编码 $w_g^{\text{IDF}}$）；以及 (3) 拓扑感知收敛评分，其中按 $\text{Score}(t)$ 排名的前 $K$ 个候选者被选为多实体。GATHER 的三个算法阶段：多源图遍历、上下文感知基因加权和拓扑感知收敛评分。前 $K$ 个收敛节点及其支持基因联盟形成压缩的证据上下文，传递给单次 LLM 调用进行最终推理。

与逐实体局部扩展相比，GATHER 提供：(1) 全局协调：显式建模跨基因的联合结构支持；(2) 上下文压缩：将 $N$ 个源基因提炼为 $K \ll N$ 个收敛节点；(3) LLM 成本降低：检索过程中不需要 LLM 调用。因此，检索从碎片化的局部探索转向结构化的全局聚合。

检索成本由接地基因数量、遍历视野和局部图扇出控制。在最坏情况下，朴素遍历随着平均扇出 $d$ 增长为 $O(|\tilde{S}|d^k)$，但 GATHER 使用浅层固定视野，仅对候选细胞类型目标进行排名。因此，IDF 项是遍历特定的：$\text{df}(g)$ 是在给定运行中使用的遍历视野 $k$ 下计算的，而不是作为全局基因频率或每个样本调整的量。

### 2.3\. VCKG：用于多实体检索的以细胞为中心的知识图谱

GATHER 需要一个知识图谱，其中基因作为入口点，功能和细胞语义启用到细胞类型的多跳路径，且细胞类型节点扎根于形式化本体。没有现有的公共 KG 满足所有三个要求：通用生物医学 KG（例如，PrimeKG（Chandak et al., 2023 (https://arxiv.org/html/2605.06403#bib.bib6)））缺乏以细胞为中心的模式，而特定领域资源（例如，CellMarker（Zhang et al., 2019 (https://arxiv.org/html/2605.06403#bib.bib23)））是扁平数据库，缺乏多跳收敛所需的图拓扑。

因此，我们构建了 VCKG，一个以细胞为中心的生物学知识图谱，通过四步流程集成 20 多个数据库和 7 个领域本体：(1) 从涵盖基因（NCBI Gene, HGNC, UniProt）、功能（GO（Ashburner et al., 2000 (https://arxiv.org/html/2605.06403#bib.bib4)）, Reactome）、细胞（Cell Ontology, CellMarker 2.0（Hu et al., 2023 (https://arxiv.org/html/2605.06403#bib.bib12)））、解剖（UBERON）和疾病（DO, MONDO, HPO）的源中*收集数据*；(2) *本体归一化*，将每个实体映射到其规范标识符以解决同义词和跨数据库冲突；(3) 通过关系本体进行*关系标准化*；以及 (4) *图组装*到 Neo4j 属性图中。

GATHER：面向零样本细胞类型注释的以汇聚为中心的超实体检索

相似文章

上下文感知与关系感知的图检索增强生成的统一框架

ContextRAG：面向检索增强生成的无抽取层次图构建

发现用于实体消歧的类型

知识图谱增强的零样本主题分类：多策略比较研究

@tom_doerr: 基于语义聚合和层次化检索的RAG知识图谱框架 https://github.com/KnowledgeXLa…

提交意见反馈