基于术语的异质语料库层级归纳
摘要
提出了一种基于术语的框架,用于从异质文本源中归纳层级分类体系,实现跨源对齐和可解释的层级结构。在多源基准上的实验表明,与基于文本和摘要的基线相比,该框架在一致性和质量上有所提升。
arXiv:2606.26963v1 公告类型:新
摘要:将来自不同文本源的知识组织成可解释的层级结构对于政策分析、创新监控和探索性领域映射等任务至关重要。现有的分类体系归纳方法通常依赖于文档级表示,这些表示捕获的是整个文档而非与知识组织相关的特定领域概念,从而限制了其在异质源之间的泛化能力。我们提出了一种基于术语的框架,用于从异质语料库中归纳层级分类体系,该框架可扩展到海量文档集合。我们的方法通过自动术语提取,将来自不同来源的文档映射到共享表示空间,实现鲁棒的跨源对齐。基于这些表示,我们构建了可解释的层级结构,将领域先验与数据驱动的聚类相结合。在一个包含超过一百万文档的新型英语和德语多源基准上的实验表明,我们的方法在跨源一致性和层级质量上优于基于文本和摘要的基线。针对德国区域创新分析的案例研究进一步证明了该方法在技术景观映射中的实用价值。
查看缓存全文
缓存时间: 2026/06/26 05:20
# 从异构语料库进行以术语为中心的层次归纳 来源:https://arxiv.org/html/2606.26963 Elena Senger1,2 Yuri Campbell2 Jan-Peter Bergmann2 Rob van der Goot3 Barbara Plank1 1MaiNLP, 德国慕尼黑大学信息与语言处理中心 2弗劳恩霍夫系统与创新研究所 ISI, 德国 3哥本哈根IT大学计算机科学系, 丹麦 [email protected], [email protected], [email protected] {yuri.campbell, jan-peter.bergmann}@isi.fraunhofer.de ###### 摘要 将来自不同文本来源的知识组织成可解释的层次结构,对于政策分析、创新监测和探索性领域映射等任务至关重要。现有的分类体系归纳方法通常依赖于文档级表示,这种表示捕捉的是整个文档,而非与知识组织相关的特定领域概念,从而限制了其跨异构来源的泛化能力。我们提出了一种以术语为中心的框架,用于从异构语料库归纳出层次化分类体系,该框架可扩展到大规模文档集合。我们的方法通过自动术语提取,将来自不同来源的文档映射到共享表示空间,实现了稳健的跨来源对齐。基于这些表示,我们构建了可解释的层次结构,该结构将领域先验知识与数据驱动的聚类相结合。在一个包含超过一百万份文档的新型英德双语多来源基准测试上的实验表明,与基于文本和基于摘要的基线方法相比,我们的方法在跨来源一致性和层次结构质量上均有提升。一项关于德国区域创新分析的案例研究进一步证明了其在技术景观映射中的实际效用。 # 从异构语料库进行以术语为中心的层次归纳 Elena Senger1,2 Yuri Campbell2 Jan-Peter Bergmann2 Rob van der Goot3 Barbara Plank1 1MaiNLP, 德国慕尼黑大学信息与语言处理中心 2弗劳恩霍夫系统与创新研究所 ISI, 德国 3哥本哈根IT大学计算机科学系, 丹麦 [email protected], [email protected], [email protected] {yuri.campbell, jan-peter.bergmann}@isi.fraunhofer.de 图1:TERMNET框架概述。来自异构来源的文档首先通过自动术语提取映射到共享表示。得到的嵌入使用种子引导的层次聚类过程进行组织:预定义的种子类别(代表广泛的科学和技术领域)初始化层次结构的顶层,然后以数据驱动的方式扩展。 ## 1 引言 层次化表示将大型文本语料库组织成可解释的多层结构。这种层次结构通过使用户能够从宽泛的主题领域导航到细粒度主题,从而促进探索性搜索、领域映射和趋势分析。近年来,基于聚类和大语言模型的方法在科学文献的分类体系归纳中展现出潜力(Zhu等人,2025;Katz等人,2024;Oarga等人,2024;Gao等人,2025)。在实践中,分析复杂领域通常需要整合反映不同背景的异构来源。政策预测、区域创新分析和特定领域知识发现等任务依赖于综合来自多个数据源的证据,例如识别新兴技术或监测战略优先级(Polchar,2024;Hakiman and Stull-Lane,2022)。异构数据源给层次归纳带来了两个主要挑战:1)它们在风格和结构上存在差异。例如,科学论文强调方法和发现,专利侧重于技术权利要求,而资助记录则描述战略目标。因此,标准文档嵌入可能反映的是来源边界而非主题结构。2)数据驱动的聚类遵循的是经验语料库而非领域的真实结构。由于K-Means等方法会将更多质心分配给高密度或高方差区域(Manning等人,2008),采样和覆盖偏差可能导致在文档丰富的区域产生更细的分区,而代表性不足的区域则可能被合并或分割(Ester等人,1996;McInnes等人,2017)。 为了应对这些挑战,我们提出了TERMNET,一个可扩展的以术语为中心的框架,用于从异构语料库归纳层次化分类体系(图1)。与依赖原始文档或摘要嵌入的先前分类体系归纳方法不同,TERMNET通过自动术语提取将文档映射到共享语义空间,从而减少了来源特定风格的影响。基于这些表示,我们通过一个整合了领域先验知识与数据驱动信号的聚类过程来构建层次结构,产生人类可解释且领域平衡的分类体系结构。我们在新引入的大规模多来源基准测试上评估了TERMNET,该基准测试包含超过一百万份英德双语文档。在聚类质量、跨来源整合和人类可解释性方面,它优于原始文本和摘要基线,这一点已通过自动评估和人工评估得到验证。一项面向政策的案例研究进一步证明了所诱导层次结构的实际效用。我们的主要贡献如下: - •我们提出了TERMNET,一个可扩展的以术语为中心的框架,用于从异构语料库进行层次归纳。 - •我们提出了一套多来源层次归纳的评估协议,包括来源熵和侵入者检测,并进行了大规模自动评估和人工评估。 - •我们发布了一个包含超过一百万份文档的多来源基准测试,涵盖出版物、专利和资助记录,以支持异构知识组织的研究。 ## 2 相关工作 层次归纳的研究传统上集中在基于模式的上下位关系提取(例如,Hearst, 1992;Schwartz等人,2016;Panchenko等人,2016)以及基于分布或聚类的方法,这些方法将语义相关的概念或文档组织成层次结构(例如,Wang等人,2013;Liu等人,2012;Mimno等人,2007)。最近,大语言模型作为独立方法或集成到传统流程中被广泛应用(例如,Gao等人,2025;Zhu等人,2025;Katz等人,2024)。 ### 2.1 大语言模型增强的层次归纳 层次归纳的研究主要集中于单来源语料库。一个早期的多来源例子是Zhu等人(2013),他们从博客、社区问答网站和Twitter构建主题层次结构,但针对的是狭窄主题和小规模用户生成内容。我们将这一方向扩展到大规模机构数据源和领域级层次结构。 表1:各来源的平均文本长度、摘要长度、解析响应长度以及示例句子。 与我们最相关的工作是SCYCHIC(Gao等人,2025),它通过结合基于嵌入的K-Means聚类与选择性的大语言模型摘要,将科学摘要组织成多层层次结构。一个关键见解是,将论文分解为贡献类型比将每篇论文视为单主题实体能产生更连贯的结构。Oarga等人(2024)利用大语言模型从科学文献中进行零样本本体和知识图谱生成,通过提示模型提取词汇、推断层次类别结构并以端到端方式提取关系,展示了在特定领域(如化学)中的有效性。Zhu等人(2025)沿着多个语义方面(例如,方法论、数据、评估)对论文进行编码,并使用概率嵌入模型对每个摘要方面进行聚类,随后进行动态搜索以确保在构建分类体系时聚类分配一致。Katz等人(2024)引入了一个大语言模型引导的框架,将科学查询结果(几千篇论文)组织成两级层次结构。他们的系统首先使用高斯混合模型对检索到的论文进行嵌入和聚类,然后进行基于大语言模型的命名、过滤和分组,以用于探索性浏览。 这些方法都基于单来源的科学语料库,并依赖于文档级表示,如原始文本、摘要或基于方面的改写。摘要可能保留来源特定风格或产生幻觉内容。因此,我们提出使用自动术语提取来进行层次归纳。 ### 2.2 种子引导的层次归纳 种子引导的层次结构构建利用语料库证据扩展一个小的初始层次结构(Shen等人,2025)。早期方法依赖基于嵌入的方法,递归地组织概念或将新概念附加到现有节点上(例如,Zhang等人,2018;Lee等人,2022;Huang等人,2020)。最近的工作利用大语言模型进行种子引导的层次结构构建。例如,TAXOINSTRUCT(Shen等人,2025)使用指令微调的大语言模型生成兄弟实体并推断父子关系,其他方法则通过提示策略迭代扩展种子层次结构(Gao等人,2025)。我们在跨来源设置中使用种子层次结构,将上层的种子引导类别分配与下层的纯数据驱动聚类相结合,以逼近领域的概念结构而非单个数据集的经验分布。 ## 3 源数据 为了评估我们的方法,我们构建了一个多来源基准测试,结合了科学出版物、专利和公共研究资助记录。这些来源捕捉了创新链条中互补的阶段:科学知识生产、技术保护和公共资助的研究活动。数据集主要关注德国所属机构,包含德语和英语文档。该语料库整合了四个主要数据源。它包括来自OpenAlex的578,335篇出版物摘要(Priem等人,2022),来自USPTO语料库的353,043篇专利摘要(Li等人,2018),来自欧盟框架计划Horizon 2020(欧盟出版局,2015)和Horizon Europe(欧盟出版局,2022)的12,979个项目描述,以及来自FöKAT的100,655个项目描述,FöKAT记录了由德国联邦政府资助的研究项目(德国联邦教育与研究部(BMFTR),2026)。最终数据集包含1,044,977份文档。 这些来源在语言特征和文档结构上存在显著差异。出版物和专利摘要通常包含关于研究贡献和技术发明的结构良好的描述,而资助记录则较短,且常常包含行政或项目特定术语。结合这些异构来源为旨在跨机构背景捕捉技术和科学主题的方法提供了一个具有挑战性的基准。表1显示了每个来源的代表性示例文档和摘要统计信息。有关数据检索、过滤标准和许可的详细信息见附录A。 ## 4 方法 ### 4.1 问题形式化 设D = {d₁, ..., d_N} 表示一个由多个来源文档组成的异构语料库。每个文档根据其来源可能在结构、风格和长度上有所不同。我们的目标是归纳出一个关于D中文档的层次化分类体系H = (V, E),其中V代表命名分类体系节点(也称为类别)的集合,E代表它们之间的唯一父子关系。除根节点v₀ ∈ V(它没有父节点)外,每个节点都有一个唯一的父节点。该层次结构将文档组织成越来越具体的类别。每个文档都与一条从根节点到叶节点的唯一路径相关联。对于节点v,我们用D_v表示沿此路径经过v的文档,用C_v表示其直接子节点。生成的层次结构应满足两个目标:(i) 语义连贯的聚类,其中兄弟节点在主题上不同,且同一节点内的文档共享一个共同主题;(ii) 平衡的领域覆盖,使得层次结构反映技术和科学景观的广度,而非语料库的频率分布。我们进一步假设可以访问领域先验知识H_p,它定义了H上层的粗粒度类别。这些先验知识可以指导层次结构构建,但不完全决定其结构。 ### 4.2 TERMNET 我们提出了TERMNET,一个以术语为中心的框架,用于从异构语料库归纳出可扩展且可解释的层次结构(图1,算法1)。关键动机是:i) 通过用技术关键术语表示文档,来抽象掉来源特定的语言惯例和文档结构;ii) 通过一个平衡领域先验知识与数据驱动发现的引导式层次构建过程来确保可解释性。 #### 以术语为中心的表征 来自不同来源的文档可能遵循不同的风格惯例,这可能导致文档表示反映来源身份而非主题结构。我们通过使用文档中特定领域的术语(即在一个专门领域内表示定义概念的词语或短语)来表示文档,来解决这个问题。我们使用DiSTER,一个经过微调的跨领域术语提取模型(Senger等人,2025),来识别每个文档中的概念、方法、材料和技术。提取的术语被连接起来并嵌入以形成文档表示。这将异构文本根据领域特定术语映射到一个共享表示空间。这促使提到相似概念的文档对齐,同时减少来源特定语言的影响。
相似文章
SCHK-HTC: 面向层级文本分类的兄弟对比学习与知识感知提示微调方法
SCHK-HTC是一种针对少样本层级文本分类的新颖方法,它将兄弟对比学习与层级知识感知提示微调相结合,能够更好地区分层级结构中较深层次的语义相似类别。该方法在三个基准数据集上取得最先进的性能,通过增强模型对兄弟类之间细微差异的感知能力来实现。
CobwebTM:用于终身学习和分层主题建模的概率概念形成
CobwebTM是一种低参数的终身分层主题建模方法,将Cobweb算法应用于连续文档嵌入,实现无监督主题发现和动态分层组织,无需预定义主题数量。该方法将增量符号概念形成与预训练表示相结合,在避免灾难性遗忘的同时实现强大的主题一致性。
HierBias:基于上下文条件的层次化媒体偏见检测与多任务类型分类
HierBias提出了一种层次化的上下文条件模型用于媒体偏见检测,利用文档上下文改进句子级分类,在BABE和BASIL数据集上达到了最先进的F1和MCC分数。
多层次上下文Token关系建模用于机器生成文本检测
本文提出了一种用于机器生成文本检测的多层次上下文Token关系建模框架,融合局部马尔可夫信息校准与全局规则支撑推理,以低计算开销提升跨大语言模型和跨领域场景下的检测性能。
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。