SciAtlas:面向自动化科学研究的大规模知识图谱

arXiv cs.AI 论文

摘要

SciAtlas是一个大规模、多学科的知识图谱,包含超过4300万篇论文和30亿个三元组,旨在通过神经符号检索算法为AI驱动的自动化科学研究提供结构化知识。

arXiv:2605.22878v1 公告类型:新 摘要:全球学术成果的指数级增长使研究人员和AI代理面临着前所未有的``信息爆炸,''其中碎片化、非结构化的知识组织形式阻碍了深层次的跨学科整合。当前的学术检索工具主要依赖于浅层的关键词匹配或向量空间语义检索,缺乏导航复杂逻辑连接所需的拓扑推理能力。基于智能体深度研究的框架往往容易产生逻辑幻觉,且推理成本高昂。为弥补这一差距,本报告介绍了SciAtlas,一个大规模、多学科、异构的学术资源知识图谱,旨在构建一个全景式的科学演化网络。通过整合来自26个学科的超过4300万篇论文,总计1.57亿个实体和30亿个三元组,SciAtlas提供了一个结构化的拓扑认知基底,打破学科壁垒,为AI智能体提供全局视角。此外,我们开发了一种神经符号检索算法,具备三路协同召回和图重排序功能,实现了从简单语义匹配到确定性关联发现的无缝过渡。我们还展示了SciAtlas的关键应用方向,包括文献综述、自动化研究趋势综合、观点定位和学术轨迹探索,以证明SciAtlas可以作为一种有效的``认知地图''赋能自动化科学研究的全流程,同时显著降低推理成本。我们已在GitHub仓库中发布了知识图谱检索及各下游任务的接口。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:55

# SciAtlas:面向自动化科学研究的大规模知识图谱
来源:https://arxiv.org/html/2605.22878
\setheadertext

预印本\\correspondingemail\\emailiconshuofei@zju\.edu\.cn, zhangningyu@zju\.edu\.cn, huajunsir@zju\.edu\.cn ∗\*同等贡献†通讯作者\.\\githublinkhttps://github\.com/zjunlp/SciAtlas\\setheadertitleSciAtlas: A Large\-Scale Knowledge Graph for Automated Scientific Research

Yunxiang Wei1∗Jiazheng Fan1Bin Wu2Busheng Zhang1Mengru Wang1Yuqi Zhu1Ningyu Zhang1†Keyan Ding1Qiang Zhang1Huajun Chen1† 1浙江大学2伦敦大学学院

###### 摘要

全球学术成果的指数级增长,使研究人员和AI代理面临着前所未有的“信息爆炸”,其中碎片化、非结构化的知识组织阻碍了深层次的跨学科融合。当前的学术检索工具主要依赖浅层关键词匹配或基于向量空间的语义检索,缺乏导航复杂逻辑联系所需的拓扑推理能力。基于深度研究的智能体框架往往容易出现逻辑幻觉,且推理成本高昂。为弥合这一差距,本报告介绍SciAtlas——一个大规模、多学科、异构的学术资源知识图谱,旨在构建全景式科学演化网络。通过整合来自26个学科的超过4300万篇论文,总计1.57亿个实体和30亿个三元组,SciAtlas提供了一个结构化的拓扑认知基底,消除学科壁垒,为AI代理提供全局视角。此外,我们开发了一种神经符号检索算法,采用三路径协同召回和图重排序,实现了从简单语义匹配到确定性关联发现的平滑过渡。我们还展示了SciAtlas的关键应用方向,包括文献综述、自动研究趋势综合、创意定位和学术轨迹探索,以证明SciAtlas可以作为有效的“认知地图”赋能自动化科学研究的完整闭环,同时显著降低推理成本。我们已在GitHub仓库中发布了知识图谱检索接口及各种下游任务。

参见图注图1:SciAtlas中的学科分布。SciAtlas是一个大规模科学知识图谱,包含26个学科,拥有超过4300万篇学术论文及其他异构实体。## 1引言

由大语言模型(LLMs)驱动的自动化科学研究已成为人工智能领域最前沿的焦点之一[ai4research-survey,ai-scientist,omniscientist]。随着全球学术成果的指数级增长,研究人员和AI代理共同面临着前所未有的“信息爆炸”挑战。精确的文献检索和有效的知识整合不仅是研究闭环的逻辑起点,也是决定后续创新生成和实验设计成功的核心基石[innoeval,scholareval,opennovelty,ai-researcher]。然而,当前的学术检索工具普遍存在两大问题。

首先是学术知识的组织形式。目前,海量的研究成果以非结构化的文本形式散布在互联网上,缺乏统一的组织范式和关联机制。这种“知识孤岛”现象不仅阻碍了深层次的跨学科融合,也使得实体之间的内在逻辑联系隐而不显。新手研究人员和AI代理难以跨越学科壁垒感知科学知识的全局拓扑结构,导致在面对前沿跨学科课题时出现认知维度缺失[scikg]。

其次是学术知识的检索范式。现有检索工具主要依赖浅层关键词匹配或基于向量空间的语义检索[scholareval,innoeval,ai-researcher,automind],两者本质上是扁平化的特征比较,无法支持真正的拓扑推理。一些基于深度研究的智能体框架试图通过迭代知识搜索和整合来弥补结构化信息的不足[wispaper,deepxiv,alphaxiv,opensholar]。然而,这种方法不仅计算成本高、响应延迟大,而且由于缺乏确定性认知图谱作为LLM的锚点,在复杂的探索轨迹中极易产生逻辑幻觉。

我们引入SciAtlas111本项目是SciGraph项目(http://scigraph.openkg.cn/)下SciGraph-Scholar的一部分。,一个大规模、多学科、异构的学术资源知识图谱,旨在为加速科学发现提供拓扑认知基底。在组织结构上,SciAtlas拥有一个精细的模式(参见图2 (https://arxiv.org/html/2605.22878#S2.F2)),涵盖9类实体节点,包括论文、作者、机构、关键词、研究领域等。每个节点类型都配备了全面的属性信息(例如论文摘要和PDF URL、作者引用数),以及12类关系边,包括引用、作者关系、合著关系、关键词共现等。这种组织范式将碎片化知识编织成一个自解释的全景式科学演化网络。这种结构化形式化能够消除学科壁垒,将科学研究提升为一个互联的逻辑拓扑结构,为AI代理提供观察科学进步的全局认知视角。

在SciAtlas的基础上,我们开发了一种神经符号检索算法,实现了从语义匹配到拓扑推理的转变。通过整合词汇匹配、向量检索和成熟的图传播算法[rwr],我们建立了三路径协同召回和图重排序机制,可以深度融合论文的语义相关性、图拓扑支持以及基于全局引用的重要性指标,从而在不需频繁迭代LLM和高推理成本的情况下提供确定性的深度关联发现。此外,我们提出了SciAtlas在自动化科学研究中的几个潜在下游应用方向,包括文献综述、研究思路的差异化定位与相似性检测、创意生成、自动研究趋势预测、高相关学术作者检索,以及研究者的学术轨迹探索。

我们的主要贡献如下:

- •我们引入了SciAtlas,一个大规模、多学科的知识图谱,将碎片化的学术资源组织成结构化的逻辑拓扑。它作为一个全面、全景式的科学网络,为AI代理提供了全局认知视角。
- •我们开发了一种高效的神经符号检索算法,采用三路径协同召回和图重排序,实现了从表面语义匹配到确定性拓扑推理的转变。
- •我们提出了SciAtlas的应用方向,包括研究趋势综合、创意定位和学术轨迹探索等。这些应用展示了SciAtlas作为“认知地图”赋能自动化科学研究完整闭环的能力。

## 2 SciAtlas

参见图注图2:SciAtlas的模式。通过整合9类实体节点和12类关系边,SciAtlas提供了一个结构化的拓扑认知基底,消除学科壁垒,为AI代理提供全局视角。SciAtlas的完整模式(包括实体、关系、属性)可在附录A (https://arxiv.org/html/2605.22878#A1)中找到。### 2.1 SciAtlas概述

##### 模式。

在图2 (https://arxiv.org/html/2605.22878#S2.F2)中,我们展示了SciAtlas的完整模式。SciAtlas以学术文献为核心,围绕论文实体,涵盖作者、机构、关键词、来源、主题、领域、子领域和学科等实体。借助这些混合实体,论文通过四个层次直接或间接地组织起来:

- •语义层。引用关系(CITES)和关联关系(RELATED_TO)在论文之间建立直接语义连接。
- •概念层。每篇论文与其最突出的关键词相关联,论文内关键词之间的共现(COOCCUR)关系在概念层间接链接论文。
- •方向层。不同的学科、领域、子领域和主题在学科和研究方向层将论文组织成层次结构。
- •社会层。作者之间的合著(COAUTHOR)关系、作者与论文之间的作者关系(AUTHORED),以及作者与机构之间的隶属关系(AFFILIATED_WITH),在社会组织层形成论文之间的间接关系。

这些多级组织结构构成了复杂的论文关系网络,为SciAtlas上的深度检索和推理提供了强大的结构基础。

表1:SciAtlas的统计信息。SciMap总节点数达数千万,总边数规模达数十亿。实体(总计:1.57亿)关系(总计:30亿)类型数量类型数量类型数量类型数量论文43.30M作者109.70M(论文,引用,论文)213.88M(论文,有关键词,关键词)101.38M关键词3.76M机构0.12M(论文,有主题,主题)105.89M(作者,隶属,机构)195.94M主题4.52K子领域252(作者,作者关系,论文)149.00M(作者,合著,作者)2.06B领域26(关键词,共现,关键词)60.37M(领域,属于学科,学科)26来源0.28M(子领域,属于领域,领域)252(论文,关联,论文)68.38M学科4(主题,属于子领域,子领域)4.52K(论文,发表于,来源)40.90M

##### 统计。

SciAtlas涵盖26个学科(参见图1 (https://arxiv.org/html/2605.22878#S0.F1)),共包含4330万篇论文。医学占比最大(18.56%),其次是社会科学(10.70%)、工程学(9.43%)、生物化学、遗传学与分子生物学(6.44%)和计算机科学(6.29%)。上述五个学科共占论文总量的51.43%,反映了核心学科的集中度。其余领域从艺术与人文学科(3.33%)到兽医学(0.16%)不等,确保了广泛的学科代表性。规模方面,如表1 (https://arxiv.org/html/2605.22878#S2.T1)所示,SciAtlas包含1.097亿名作者、376万个关键词和12万个机构,通过11种关系类型连接数十亿条关系边。这种全面的学科覆盖与庞大的实体体量相结合,使SciAtlas成为用于拓扑科学搜索的大规模多学科知识图谱。

### 2.2 SciAtlas构建

我们知识图谱的主要数据源来自OpenAlex222https://openalex.org/,这是一个完全开源的科学资源库,包含超过4.8亿份学术出版物。每篇论文包含丰富的元数据,包括作者、摘要、机构、出版日期、期刊来源、参考文献、引用次数、主题、开放获取状态、PDF URL等。在此基础之上,我们通过以下主要步骤构建知识图谱:

##### 数据重构与过滤。

首先,我们从OpenAlex中提取不同的实体类型,并为每个实体仅保留关键属性。随后,由于OpenAlex数据也来自互联网且包含大量噪音,我们在标准化后对各种实体(例如论文标题、机构名称)的名称进行归一化和去重。值得注意的是,由于名称重复和歧义的普遍存在,我们不对作者进行去重。我们还丢弃缺少关键属性(例如论文PDF URL)的实体。然后,我们过滤掉非英文论文和摘要过短的论文,以确保高质量。接下来,我们根据每个实体中存储的跨实体信息(例如论文中包含的作者和参考文献)建立边。由于OpenAlex为每个实体分配了唯一ID,我们直接利用这些ID匹配相应实体并构建关系。

##### 关键词提取。

虽然OpenAlex包含一个概念实体类型作为论文的核心概念,但它过于稀疏(仅有6.5万条目,远少于4.8亿篇论文语料),更重要的是,这些概念停留在宏观和表面层面(例如“人工智能”),未能真正代表单篇论文中的核心概念和术语。这些局限性不足以支持知识图谱中复杂的学术关系推理,促使我们构建更密集且真正有用的关键词。具体而言,我们采用轻量级开源大语言模型(Qwen3-30B-A3B-Instruct-2507[qwen3])作为提取器,从论文摘要中识别关键词。考虑到许多当代论文倾向于强调叙述包装,这往往掩盖了其学术本质,并且同一概念在不同领域可能有不同表达,我们特意指示大语言模型避免使用论文特有的术语或系统名称,以及高度定制化或营销式的表达。相反,我们优先选择那些可在大量论文中重复使用的基本短语。对于每篇论文,我们提取3-8个核心关键词构成关键词实体。大语言模型还会为每个关键词分配一个重要性分数,作为有关键词边的属性。关键词提取的详细提示请参见附录B.1 (https://arxiv.org/html/2605.22878#A2.SS1)。为了捕获关键词之间的关联,我们在同一篇论文中出现的关键词之间建立共现关系,并以共现频率作为边权重,表示关键词之间的关联强度。

好关键词与差关键词示例好关键词:蛋白质结构预测、想法评估、无线通信、能量优化、故障检测、蒙特卡洛模拟差关键词:层次双路径自适应学习框架、多阶段跨模态特征融合架构、新型高性能原型系统、AlphaEvolve

##### 语义嵌入。

为了支持混合且高效的知识图谱检索,除了纯文本之外,我们将预计算的语义向量整合到SciAtlas中。具体而言,我们选择语义最丰富的三个字段:论文标题、论文摘要和关键词。我们首先对每个字段进行归一化(格式和大小写),然后使用bge-large-en-v1.5[bge]作为嵌入模型。来自标题和摘要的语义向量作为论文属性整合,来自关键词的语义向量则作为关键词属性整合。

最后,我们组织所有实体、属性和边,并使用Neo4j333https://neo4j.com/部署SciAtlas。

### 2.3 SciAtlas更新

为了适应快速的知识迭代,我们提出了几种SciMap更新的方法:

##### 结合在线资源使用。

OpenAlex提供每日更新的API接口444https://developers.openalex.org/api-reference/introduction,支持对论文、作者和机构等实体进行每日更新。用户可以直接通过API检索所需论文的信息,按照t

相似文章

InfoAtlas:用于零样本统计依赖估计的基础模型

arXiv cs.LG

InfoAtlas是一种基础模型,能够通过单次前向传播直接估算互信息,在保持准确性的同时,比传统神经估算器实现100倍加速。该模型在合成数据上预训练,并能泛化到现实场景。

ATLAS: 大规模自动形式化教科书库

Hacker News Top

ATLAS是一个大规模的Lean 4教科书数学库,由LLM自动形式化,涵盖26本书籍,超过46,000个声明。它为人机形式化提供了可重用的形式化构建块。