CobwebTM:用于终身学习和分层主题建模的概率概念形成

arXiv cs.CL 论文

摘要

CobwebTM是一种低参数的终身分层主题建模方法,将Cobweb算法应用于连续文档嵌入,实现无监督主题发现和动态分层组织,无需预定义主题数量。该方法将增量符号概念形成与预训练表示相结合,在避免灾难性遗忘的同时实现强大的主题一致性。

arXiv:2604.14489v2 公告类型:替换 摘要:主题建模旨在以最少监督的方式发现文本语料库中的潜在语义结构。神经网络方法性能强劲,但需要大量调参且在终身学习中容易出现灾难性遗忘和固定容量问题,而经典概率模型缺乏对流数据的灵活性和自适应性。我们介绍CobwebTM,一种基于增量概率概念形成的低参数终身分层主题模型。通过将Cobweb算法应用于连续文档嵌入,CobwebTM在线构建语义层次,实现无监督主题发现、动态主题创建和分层组织,无需预定义主题数量。在多个数据集上,CobwebTM实现了强大的主题一致性、随时间稳定的主题和高质量的层次结构,证明增量符号概念形成与预训练表示相结合是进行主题建模的高效方法。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:32

# CobwebTM: 用于终身学习和层次化主题建模的概率概念形成
来源: https://arxiv.org/html/2604.14489
Karthik Singaravadivelan, Anant Gupta11footnotemark:1, Zekun Wang, Christopher J\. MacLellan 乔治亚理工学院计算学院 亚特兰大,GA 30332 USA \{ksingara3,agupta886,zwang910\}@gatech\.edu

###### 摘要

主题建模旨在以最少的监督来发现文本语料库中的潜在语义结构。神经方法性能强劲,但需要大量调参,在终身学习中易发生灾难性遗忘且容量固定,而经典概率模型缺乏灵活性和对流数据的适应性。我们引入CobwebTM,一个基于增量概率概念形成的低参数终身层次主题模型。通过将Cobweb算法适配到连续文档嵌入,CobwebTM在线构建语义层级,无需预定义主题数量即可实现无监督主题发现、动态主题创建和层次化组织。在多个数据集上,CobwebTM实现了强大的主题连贯性、稳定的主题演化和高质量的层级结构,证明增量符号概念形成与预训练表示结合是主题建模的有效方法。††footnotetext:代码可在https://github.com/Teachable-AI-Lab/cobweb-language-embedding获得

CobwebTM: 用于终身学习和层次化主题建模的概率概念形成

Karthik Singaravadivelan††thanks:平等贡献, Anant Gupta11footnotemark:1, Zekun Wang, Christopher J\. MacLellan 乔治亚理工学院计算学院 亚特兰大,GA 30332 USA\{ksingara3,agupta886,zwang910\}@gatech\.edu

## 1 引言

Refer to caption\(a\)来自20 Newsgroups数据集的子树
Refer to caption\(b\)来自AG news数据集的子树

图1:CobwebTM诱导的层级结构三个级别的可视化。对于每个节点,我们使用第3.2.1节(https://arxiv.org/html/2604.14489#S3.SS2.SSS1)所述的c\-tf\-idf过程提取显示的前五个代表性词汇。在同一级别多个节点中出现的词汇带有下划线,以突出兄弟主题间的共享语义内容。

主题建模旨在通过将文本分组为连贯主题来发现大型文档集合中的潜在语义结构。它是文档组织、语料库探索和信息检索的基础工具,尤其在标注数据不可用的场景中。随着现代文本语料库在规模、多样性和时间跨度上的增长,有效的主题建模越来越需要支持无监督主题发现、适应流数据和在多个抽象级别表示主题的方法。

主题建模的早期工作主要由概率生成模型主导,最著名的是隐含狄利克雷分配(LDA)(Blei等,2003b(https://arxiv.org/html/2604.14489#bib.bib42))。虽然影响深远,但LDA要求事先指定主题数量,假设主题之间独立,并依赖忽视词汇间语义相似性的词袋表示。这些假设限制了其建模不平衡、相关或演化主题的能力,使其不适合终身或流式设置。

表示学习的最近进展导致了利用密集文档嵌入的神经主题模型(Zheng等,2013(https://arxiv.org/html/2604.14489#bib.bib32);Wu等,2024b(https://arxiv.org/html/2604.14489#bib.bib31))。这些方法通常实现了改进的主题连贯性和更丰富的语义表示,但代价是增加复杂性。神经主题模型通常高度参数化,对超参数选择敏感,在假设可访问全部语料库的批处理设置中训练。因此,它们在数据增量到达且主题结构必须随时间演化的终身学习场景中表现不佳。此外,神经架构易发生灾难性遗忘,导致随着新数据引入,先前学习的主题退化。

终身主题建模通过在新文档到达时增量更新主题来应对这些挑战。Online LDA(Hoffman等,2010(https://arxiv.org/html/2604.14489#bib.bib44))和神经终身主题模型等方法缓解了一些可扩展性问题,但保留了关键限制,包括固定主题容量、有限主题重构和对语料库特定训练的依赖。更近期的基于嵌入的管道用增量聚类算法替代了静态聚类,但这些方法仍然对参数选择敏感,通常缺乏将主题组织在多个抽象级别的有原则的机制。

然而,在实践中,主题结构本质上是层次化的:广泛主题自然分解为逐渐更精细的子主题。捕捉这种层次化组织提高了可解释性,并允许模型表示主题间的语义关系,而非将其视为独立集群。因此,层次化主题模型在概率和神经框架中都得到了广泛探索(Blei等,2003a(https://arxiv.org/html/2604.14489#bib.bib1);Koltcov等,2021(https://arxiv.org/html/2604.14489#bib.bib40))。这些方法旨在学习捕捉语料库内不同抽象级别的主题树。

尽管前景光明,许多层次化主题模型依赖于固定深度的潜在结构或需要在完整语料库上的批处理训练,限制了它们在动态或流式环境中的适用性。在许多现代系统中,层级因此在平面主题发现之后事后施加,而非在数据演化时增量学习。终身学习与层次化结构之间的这种脱节催生了对同时支持增量更新和灵活层次化组织的主题建模方法的需求。

在这项工作中,我们重新审视增量概念形成作为主题建模的替代范式。我们引入CobwebTM,一个基于Cobweb算法(Fisher,1987(https://arxiv.org/html/2604.14489#bib.bib45))的概率概念形成的终身层次主题建模框架。通过将Cobweb适配为在连续文档嵌入上运作,CobwebTM在文档到达时增量构建语义层级,无需预定义主题数量即可实现无监督主题发现。

我们的贡献有三方面:(1)我们引入CobwebTM,一个用于流式文本无监督主题发现的增量层次主题建模框架;(2)我们证明在嵌入空间中的概率概念形成为终身主题建模提供了简单而有效的机制,无灾难性遗忘或固定主题容量;(3)通过广泛的实证评估,我们证明CobwebTM在主题质量和层次化结构方面与最近的神经和聚类方法相匹配或超越。

## 2 相关工作

### 2.1 终身主题建模

Online LDA(Hoffman等,2010(https://arxiv.org/html/2604.14489#bib.bib44))是最广泛使用的终身主题模型,通过小批变分推理更新全局主题。然而,它继承了LDA的词袋假设,需要预定义主题数量,缺乏随新数据到达而重构主题的机制。

大多数神经主题模型在批处理设置中训练,在不重新训练的情况下难以进行顺序更新(Wu等,2024a(https://arxiv.org/html/2604.14489#bib.bib50))。它们也容易发生灾难性遗忘(Luo等,2025(https://arxiv.org/html/2604.14489#bib.bib46))。诸如重放或弹性权重整合等缓解技术(Gupta等,2020(https://arxiv.org/html/2604.14489#bib.bib43))减少了遗忘,但仍依赖固定的潜在维度。

基于嵌入的管道则通过在神经表示上进行聚类来执行主题发现。例如,BERTopic(Grootendorst,2022(https://arxiv.org/html/2604.14489#bib.bib47))结合了变换器嵌入和聚类。终身变体用DBStream(Bär等,2014(https://arxiv.org/html/2604.14489#bib.bib12))或Mini\-Batch KMeans(Sculley,2010(https://arxiv.org/html/2604.14489#bib.bib21))等增量方法替代了静态聚类,尽管这些方法通常假设平面聚类,并且仍然对参数选择敏感。最近的方法如TopicGPT(Pham等,2024(https://arxiv.org/html/2604.14489#bib.bib3))和FASTopic(Wu等,2024c(https://arxiv.org/html/2604.14489#bib.bib4))通过基于LLM的生成或嵌入级语义建模改进主题质量,但要么在规模上计算昂贵,要么不支持层次化和增量主题发现。

### 2.2 层次化主题建模

层次化主题模型在抽象级别上组织主题。早期的贝叶斯方法如hLDA Blei等(2003a(https://arxiv.org/html/2604.14489#bib.bib1))和相关模型Mimno等(2007(https://arxiv.org/html/2604.14489#bib.bib8));Perotte等(2011(https://arxiv.org/html/2604.14489#bib.bib6))通过生成过程学习主题树。更近期的方法在基于嵌入的主题表示上构造层级。例子包括CluHTM Viegas等(2020(https://arxiv.org/html/2604.14489#bib.bib22))、HyHTM Shahidi等(2023(https://arxiv.org/html/2604.14489#bib.bib23))和BERTopic Grootendorst(2022(https://arxiv.org/html/2604.14489#bib.bib47))的层次化变体,它们通常通过在平面主题发现后应用聚类或链接过程来导出层级。神经层次化主题模型进一步使用VAE学习结构化潜在表示Kingma和Welling(2013(https://arxiv.org/html/2604.14489#bib.bib24)),包括基于树的Isonuma等(2020(https://arxiv.org/html/2604.14489#bib.bib41))、固定深度Duan等(2021(https://arxiv.org/html/2604.14489#bib.bib36))和几何正则化模型Wu等(2024d(https://arxiv.org/html/2604.14489#bib.bib38));Lu等(2024(https://arxiv.org/html/2604.14489#bib.bib39))。然而,这些模型通常在批处理设置中训练,施加的结构约束限制了它们在终身或流式场景中的灵活性。

### 2.3 增量概念形成

人类使用原型和分级类别成员资格来层次化地组织知识(Rosch和Mervis,1975(https://arxiv.org/html/2604.14489#bib.bib19))。增量聚类方法通过构建其内部节点汇总概念级统计量的分类学来形式化这一过程。

Cobweb Fisher(1987(https://arxiv.org/html/2604.14489#bib.bib45))通过概念聚类增量构建概率分类学,动态创建和重构节点以最大化类别效用。最近的工作将Cobweb扩展到神经设置,并在视觉和语言任务中展现了鲁棒性(MacLellan等,2022(https://arxiv.org/html/2604.14489#bib.bib13);MacLellan和Thakur,2021(https://arxiv.org/html/2604.14489#bib.bib14);Wang等,2025(https://arxiv.org/html/2604.14489#bib.bib15);Barari等,2024a(https://arxiv.org/html/2604.14489#bib.bib10),b(https://arxiv.org/html/2604.14489#bib.bib16);Lian等,2025(https://arxiv.org/html/2604.14489#bib.bib17))。

与LDA等概率主题模型不同,后者通过狄利克雷先验直接学习P(word|topic)和P(topic|document),我们的方法通过在嵌入空间中聚类来推导这些量。连续Cobweb增量将变换器文档嵌入分割为层次化聚类混合,通过类别效用估计文档主题关联。主题词分布通过对分配给每个节点的文档使用基于类的TF-IDF事后计算。

## 3 方法论

我们提出CobwebTM,一个增量将文档嵌入组织为动态语义层级的主题建模框架。与k-Means或HDBSCAN等批处理聚类方法不同,CobwebTM通过两步神经符号过程支持持续更新而无需重新训练。

首先,我们在预训练变换器嵌入的潜在空间中直接执行文档主题推理。假设嵌入空间反映主题的基础混合,我们应用连续Cobweb算法增量分割空间,将每个文档分配给最大化类别效用的节点。此过程产生隐式定义文档主题分布的层次聚类。

其次,我们从产生的层级推导主题词表示。每个节点代表由其子树中的文档定义的主题。将节点视为类别,我们使用c-TF-IDF计算词主题分布,从最高排名词汇生成可解释的主题描述符。

### 3.1 概率概念形成

我们方法的核心是Cobweb的一个变体,适配用于连续值属性(Barari等,2024a(https://arxiv.org/html/2604.14489#bib.bib10))。每个概念节点c维护一个D维多变量高斯分布,具有对角协方差,

p(x|c)=N(x;μc,diag(σc2)),

其中μc∈ℝD是节点均值,σc2∈ℝD是方差向量。这些统计量在合并新文档时增量更新。

Cobweb在线构造概念层级。给定新文档嵌入x,算法执行由类别效用(CU)引导的树顶向下搜索(Gluck和Corter,1985(https://arxiv.org/html/2604.14489#bib.bib18);Corter和Gluck,1992(https://arxiv.org/html/2604.14489#bib.bib30))。遵循Barari等(2024a(https://arxiv.org/html/2604.14489#bib.bib10)),我们采用了一个信息论表述,衡量通过了解子概念获得的特征不确定性的期望减少。

令父节点cp有子节点C(cp),各自计数Nc。概念c在父节点下的经验概率为

P(c|cp)=Nc/∑c'∈C(cp)Nc'=Nc/Ncp          (1)

我们使用高斯的微分熵测量节点不确定性:

U(c)=(1/2)∑d=1D log(2πeσc,d2)          (2)

父节点的类别效用为

CU(cp)=∑c∈C(cp)P(c|cp)[U(cp)-U(c)]          (3)

最大化CU倾向于同时减少特征不确定性且维持充分支持的分区,平衡类内相似性和类间分离。对于连续属性,这对应于最大化分区诱发的方差减少,允许Cobweb在无需指定主题数K的情况下确定层级深度和广度。

在每个节点,Cobweb评估四个操作符来确定x应如何并入层级:(1)将x插入最佳匹配的现有子节点并更新其高斯参数;(2)为x创建新单元素子节点;(3)合并两个最佳匹配的子节点并将x分配给合并后节点;(4)分割包含多个

相似文章

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。

基于术语的异质语料库层级归纳

arXiv cs.CL

提出了一种基于术语的框架,用于从异质文本源中归纳层级分类体系,实现跨源对齐和可解释的层级结构。在多源基准上的实验表明,与基于文本和摘要的基线相比,该框架在一致性和质量上有所提升。

Cognifold:通过认知折叠实现始终在线的主动记忆

arXiv cs.AI

介绍了Cognifold,一种受大脑启发的、用于LLM代理的始终在线主动记忆,它通过图拓扑自组织将碎片化的事件流持续组织成自涌现的认知结构,并通过前额叶意图层扩展了互补学习系统理论。