LLM 需要多少结构?评估 LLM 用于文献计量聚类描述

arXiv cs.CL 论文

摘要

本文通过比较六种生成聚类描述的流程,评估文献计量结构是否能改善 LLM 辅助的科学文献综述。结果表明,在文献计量算法定义聚类、LLM 生成可读描述的混合工作流中,LLM 表现最佳。

arXiv:2605.24351v1 公告类型:新 摘要:大语言模型 (LLMs) 能够支持科学文献综述,但仍容易出现幻觉引用、覆盖不均和主题组织薄弱的问题。我们通过比较六种在不同证据和结构水平下生成聚类描述的流程,评估文献计量结构是否能改善 LLM 辅助的文献综述。使用100篇已发表的文献计量分析,我们重建 Scopus 语料库,提取人工撰写的聚类描述,并通过人类对齐度、语义覆盖、聚类质量、图质量和引用基础性来评估输出。结果表明,LLM 生成的描述在语义上与人工撰写的描述非常接近,但在从头推断文献计量结构时不可靠。当文献计量算法定义聚类、LLM 对其进行解释时,性能有所提升。总体而言,LLM 辅助的文献计量综述最有前景的方式是混合工作流:算法提供可审计的结构,LLM 生成可读的描述。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:02

# 大语言模型需要多少结构?评估LLM用于文献计量聚类描述

来源:https://arxiv.org/html/2605.24351

亚伯拉罕·卡梅洛-格雷罗  
信息技术学院  
约克大学  
多伦多,安大略省 M3J 1P3  
[email protected]

&

贾伊罗·迪亚兹-罗德里格斯  
数学与统计系  
约克大学  
多伦多,安大略省 M3J 1P3  
[email protected]

###### 摘要

大语言模型(LLM)可支持科学文献综合,但仍容易出现虚假引用、覆盖不均以及主题组织缺乏充分依据的问题。我们通过比较六种在不同证据和结构级别下生成聚类描述的管线,评估文献计量结构是否能改善LLM辅助的综合效果。利用100项已发表的文献计量分析,我们重建了Scopus语料库,提取了人工编写的聚类描述,并通过与人类对齐度、语义覆盖率、聚类质量、图质量和引用基准度来评估输出结果。结果显示,LLM生成的描述在语义上与人工描述接近,但在从头推断文献计量结构时不可靠。当文献计量算法定义聚类而LLM负责解释时,性能会提升。总体而言,LLM辅助的文献计量综合最有前景的方式是混合工作流:算法提供可审计的结构,LLM生成可读的描述。

## 1 引言

大语言模型(LLM)越来越多地被用于科学文献综合,包括相关工作生成、科学摘要和自动文献综述生成(Hu and Wan, 2014 (https://arxiv.org/html/2605.24351#bib.bib23); Chen et al., 2021 (https://arxiv.org/html/2605.24351#bib.bib24); Lu et al., 2020 (https://arxiv.org/html/2605.24351#bib.bib25); Kasanisi et al., 2023 (https://arxiv.org/html/2605.24351#bib.bib26); Tang et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib36))。检索增强生成改善了对外部语料库的基准程度(Lewis et al., 2020 (https://arxiv.org/html/2605.24351#bib.bib27); Gao et al., 2023 (https://arxiv.org/html/2605.24351#bib.bib28)),近期系统也直接针对科学综合(Asai et al., 2026 (https://arxiv.org/html/2605.24351#bib.bib29))。然而,从头生成文献综述仍然困难:LLM可能产生虚假引用、提供不均匀的覆盖,或强加一种在学术记录中缺乏依据的文献组织方式(Tang et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib36))。

一个自然的替代方案是将组织与写作分开:首先构建一个结构化的文献地图,然后利用LLM在该结构内综合描述。文献计量分析提供了这样一种结构化方法。它利用出版和引文元数据,通过文献耦合、共被引和直接引文等关系来组织论文(Kessler, 1963 (https://arxiv.org/html/2605.24351#bib.bib4); Small, 1973 (https://arxiv.org/html/2605.24351#bib.bib11); Boyack and Klavans, 2010 (https://arxiv.org/html/2605.24351#bib.bib12))。在管理学、信息科学、健康科学、环境研究、教育学和科学计量学等领域广泛使用,文献计量科学映射提供了一种可审计的方式,用于识别研究流派、知识基础、有影响力的作品和学术社群(Cobo et al., 2011 (https://arxiv.org/html/2605.24351#bib.bib3))。

近期已有研究开始围绕文献计量分析使用LLM,主要用于辅助任务,如检索支持、摘要、主题分类和主题映射(Sarachuk, 2025 (https://arxiv.org/html/2605.24351#bib.bib49); He et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib50); Keenan and Heavin, 2026 (https://arxiv.org/html/2605.24351#bib.bib51))。然而,这些研究并未系统评估不同级别的LLM责任如何影响文献计量工作流本身的质量。这使得文献计量分析成为测试LLM辅助综合的有用场景:如果LLM在从头组织文献时遇到困难,那么它们应该接收多少外部结构?

参见图标题图1:用于评估LLM辅助文献计量综合的工作流。

我们通过评估六种LLM辅助管线(在不同证据和结构级别下生成文献计量聚类描述)来解决这个问题(图1 (https://arxiv.org/html/2605.24351#S1.F1))。这些管线从Blind(模型仅接收搜索查询)到结构化设置(如Labeled和Ranked,模型接收按文献耦合或直接引文聚类分组的论文)不等。我们通过手动提取作者查询、重建Scopus语料库并收集人工编写的聚类描述,构建了基于100项已发表文献计量分析的基准。我们从人类对齐度、语义覆盖率、聚类质量、与底层文献计量图的一致性以及引用基准度方面评估输出结果。这一设计有助于LLM辅助文献综述研究从孤立的单任务应用向结构化、多阶段工作流的更广泛转变。近期的研究考察了LLM在这些多阶段工作流中承担筛选、查询生成、检索、提取、组织和综合等任务时的表现,均在人类监督下进行(Nykvist et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib40); Wang et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib41); Ye et al., 2024 (https://arxiv.org/html/2605.24351#bib.bib42); Pei and Sun, 2025 (https://arxiv.org/html/2605.24351#bib.bib43); Silva and Wickramaarachchi, 2025 (https://arxiv.org/html/2605.24351#bib.bib44))。其他研究强调结构化输出,包括综述表格、模式、层次图以及提取的证据,因为这些输出比自由形式的散文更容易检验(Padmakumar et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib45); Hsu et al., 2024 (https://arxiv.org/html/2605.24351#bib.bib46); John et al., 2026 (https://arxiv.org/html/2605.24351#bib.bib47); Jansen et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib48))。我们的研究通过将结构本身作为实验条件来扩展这一方向。

我们的结果表明:(i)LLM可以生成语义上与人工描述接近的聚类描述,但在从头推断文献计量结构时不可靠;(ii)当给予适当的文献计量结构时,LLM生成的描述在语料库级别、聚类和图基指标上可能得分高于人工描述,其中性能最强的情况是文献计量算法先定义聚类,然后由LLM进行解释;(iii)结构的最佳形式取决于关系:文献耦合受益于完整的聚类上下文,而引文分析通常可以从紧凑的链路排名证据中总结;(iv)总体而言,基于LLM的文献计量分析最有前景的方式是混合工作流:算法提供可审计的结构,LLM将该结构转化为可读的描述。

## 2 相关工作

关于科学文献综合的自然语言处理工作包括相关工作生成、科学多文档摘要和自动文献综述生成(Hu and Wan, 2014 (https://arxiv.org/html/2605.24351#bib.bib23); Chen et al., 2021 (https://arxiv.org/html/2605.24351#bib.bib24); Lu et al., 2020 (https://arxiv.org/html/2605.24351#bib.bib25); Kasanisi et al., 2023 (https://arxiv.org/html/2605.24351#bib.bib26); Tang et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib36))。近期的检索增强系统进一步将科学生成基于外部语料库(Lewis et al., 2020 (https://arxiv.org/html/2605.24351#bib.bib27); Gao et al., 2023 (https://arxiv.org/html/2605.24351#bib.bib28); Asai et al., 2026 (https://arxiv.org/html/2605.24351#bib.bib29)),而近期评估表明,LLM生成的文献综述仍存在虚假引用和覆盖不均的问题(Tang et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib36))。我们的工作不同之处在于,我们研究的不是完整的综述生成,而是更具体的任务:基于文献计量分析原则生成聚类描述(Cobo et al., 2011 (https://arxiv.org/html/2605.24351#bib.bib3))。

我们的任务将主题标注与文献计量科学映射联系起来。主题模型和自动标注方法从文本中引出并表述潜在主题(Blei et al., 2003 (https://arxiv.org/html/2605.24351#bib.bib32); Mei et al., 2007 (https://arxiv.org/html/2605.24351#bib.bib33); Lau et al., 2011 (https://arxiv.org/html/2605.24351#bib.bib34); Bhatia et al., 2016 (https://arxiv.org/html/2605.24351#bib.bib35)),近期工作利用LLM改进主题建模和主题可解释性(Liu et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib37); Yang et al., 2025 (https://arxiv.org/html/2605.24351#bib.bib38))。文献计量方法则使用文献耦合、共被引和直接引文等关系对论文进行聚类(Kessler, 1963 (https://arxiv.org/html/2605.24351#bib.bib4); Small, 1973 (https://arxiv.org/html/2605.24351#bib.bib11); Boyack and Klavans, 2010 (https://arxiv.org/html/2605.24351#bib.bib12)),通常配合Louvain等社区检测算法(Blondel et al., 2008 (https://arxiv.org/html/2605.24351#bib.bib39))。我们将文献计量聚类作为LLM生成的可审计骨架,测试LLM能否自行推断文献结构,以及需要多少外部结构才能改进聚类描述。

## 3 背景:文献计量分析

### 3.1 文献计量分析作为科学映射

文献计量分析是一种通过元数据(如标题、摘要、关键词、参考文献和引文)研究科学文献的结构化方法。在科学映射中,目标是揭示一个研究领域的组织方式:其主要主题、知识基础、有影响力的作品和研究社群(Cobo et al., 2011 (https://arxiv.org/html/2605.24351#bib.bib3))。文献计量分析通常不会生成单一的线性摘要,而是将文献组织成可解释为研究流派或主题领域的聚类。一个简化的文献计量工作流包含四个阶段(Donthu et al., 2021 (https://arxiv.org/html/2605.24351#bib.bib53)):
查询 → 语料库 → 聚类 → 聚类描述。

##### 查询。
查询定义了分析的范围。它指定了检索中包含的主题、关键词、时间段、文献类型或数据库字段。由于后续所有阶段都依赖于检索到的论文,查询强烈影响最终的分析结果。在已发表的文献计量综述中,查询是方法论记录的一部分,提供了可重复的文献入口点。

##### 语料库。
在Scopus等书目数据库中执行查询,会产生一个论文语料库。语料库是要组织的文献全集。它提供文本证据(如标题和摘要)以及书目证据(如参考文献和引文链接)。重要的是,语料库本身不是聚类。它是一个仍需要结构的论文集合。

##### 聚类。
聚类阶段将语料库组织成相关论文的组。文献计量聚类通常先定义论文间的关系,然后对这些关系应用聚类算法。不同的关系捕捉不同的学术关联概念。在本工作中,我们重点分析*文献耦合*和*引文*分析。

*文献耦合*当两篇论文引用同一篇前人作品时建立联系(Kessler, 1963 (https://arxiv.org/html/2605.24351#bib.bib4))。设\(R_i\)表示论文\(p_i\)引用的参考文献集合。论文\(p_i\)和\(p_j\)之间的文献耦合权重为:
\[
w_{ij}^{BC} = |R_i \cap R_j|.
\]
如果两篇论文共享许多参考文献,它们很可能基于相似的知识基础。因此,文献耦合有助于基于共享的前人文献识别研究前沿(Boyack and Klavans, 2010 (https://arxiv.org/html/2605.24351#bib.bib12))。

*引文*分析当一篇论文引用另一篇论文时建立联系(Garfield, 1955 (https://arxiv.org/html/2605.24351#bib.bib21); Price, 1965 (https://arxiv.org/html/2605.24351#bib.bib10))。设\(c_{ij} = 1\)如果论文\(p_i\)引用论文\(p_j\),否则为0。我们使用无向投影:
\[
w_{ij}^{CIT} = c_{ij} + c_{ji}.
\]
这种关系在检索语料库内捕捉直接的学术影响。与文献耦合相比,引文分析更强调引文路径和知识传承。

在构建了基于文献耦合或引文的表示之后,聚类算法将论文分组为社群。在我们的研究中,这一阶段使用Louvain社区检测实现(Yin, 2024 (https://arxiv.org/html/2605.24351#bib.bib52))。结果是一个论文级别的聚类,指定哪些论文属于同一组。

##### 聚类描述。
聚类识别了相关论文的组,但并不解释这些组的含义。在传统的文献计量综述中,人类分析师通过检查代表性论文、核心作品、重复出现的术语和引文模式来解释聚类。然后他们编写标签和描述,总结每个聚类的主题、范围以及与其他聚类的关系。这个最后的解释步骤可能是LLM特别有用的地方。LLM可以综合文本并生成流畅的描述,但当被要求仅从主题推断整个文献结构时可能不可靠。文献计量工作流提供了递增的结构:先是查询,然后是检索的语料库,再是算法聚类。这种结构使我们能够测试LLM作为自主聚类生成器与作为标准文献计量方法产生聚类的解释器之间,谁更可靠。

## 4 概念框架

我们将LLM辅助的文献计量分析视为一个工作流分配问题:哪些阶段应由LLM处理,哪些应保持算法化?我们的六种管线形成了一个递增结构的阶梯,从仅基于查询的生成(LLM必须自行推断论文、主题、参考文献和聚类),到结构化工作流(检索语料库,构建书目或引文图,算法分配聚类,LLM仅总结最终聚类)。我们假设,LLM作为文献计量结构的解释器比作为不受约束的文献地图生成器更可靠,并测试检索到的证据和图表诱导的聚类是否能减少虚假引用、弱覆盖和无依据的主题组织。我们的目标不是评估无约束的主题发现,而是评估忠实于聚类的文献计量描述生成:给定或推断的语料库证据,系统应生成描述,其诱导的解释应保留文献计量分析旨在揭示的文献耦合或引文结构。

表1:六种管线形成结构连续统

相似文章

LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]

Reddit r/MachineLearning

作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。

LLM Wiki v2(16分钟阅读)

TLDR AI

本文介绍了一种利用LLM构建个人知识库的模式,为在大语言模型辅助下进行知识管理提供了结构化方法。