结构主题模型与BERTopic在简短开放式调查回答中的比较评估

arXiv cs.CL 2026/05/25 04:00 论文

topic-modeling comparative-evaluation bertopic structural-topic-models short-surveys nlp social-science

摘要

本文比较了结构主题模型（STM）和BERTopic在分析简短开放式调查回答中的表现，发现采用上下文增强的BERTopic在主题连贯性和可解释性方面表现更佳，而STM在推断性协变量分析方面提供更强支持。

arXiv:2605.23093v1 公告类型：新摘要：应用心理学中的主题建模日益涵盖两种方法论传统：基于概率的词袋模型和较新的基于嵌入的方法。然而，许多关于这些方法的评估依赖于较长且更清洁的基准语料库，对于简短开放式调查回答的指导较少。本文比较了结构主题模型（STM，一种概率主题模型）和BERTopic（一种基于嵌入的模型）在分析开放式调查回答中的表现。我们评估了三种STM条件和五种BERTopic条件，变化因素包括拼写校正、词干提取、嵌入选择以及我们引入的上下文增强策略，该策略为非常简短的回答提供额外的语义背景。结果表明，BERTopic始终比STM产生更高的主题连贯性，其中上下文增强带来了最显著的性能提升。相比之下，仅使用高维嵌入并未改善连贯性，反而与更大的数据损失相关。定性评估显示，BERTopic生成了更可解释且更稳定的主题，而STM的主题通常更宽泛且更混杂。然而，STM在推断性协变量分析方面提供更强支持，而BERTopic的协变量比较主要是描述性的。这些发现表明STM和BERTopic具有互补优势。最后，我们为应用社会科学研究中主题建模方法的选择与结合提供了实用指导。

查看原文

查看缓存全文

缓存时间: 2026/05/25 08:59

# 结构主题模型与BERTopic在简短开放性调查回复中的比较评估  
来源：https://arxiv.org/abs/2605.23093  
查看PDF（https：//arxiv.org/pdf/2605.23093）

> **摘要**：应用心理学中的主题建模日益跨越两种方法论传统：概率词袋模型与基于嵌入的新方法。然而，许多方法评估依赖更长、更清晰的基准语料库，对简短、开放式调查回复的指导较少。本文比较了结构主题模型（STM，一种概率主题模型）与BERTopic（一种基于嵌入的模型）在分析开放式调查回复中的表现。我们评估了三种STM条件和五种BERTopic条件，包括打字纠正、词干提取、嵌入选择以及上下文增强——这是一种我们引入的为极短回复提供额外语义上下文的策略。结果表明，BERTopic始终比STM产生更高的话题连贯性，其中上下文增强带来的性能提升最为显著。相比之下，高维嵌入本身并未提升连贯性，反而与更大的数据损失相关。定性评估显示，BERTopic生成的话题更具可解释性和稳定性，而STM话题往往更宽泛且混合。然而，STM为推论性协变量分析提供了更强支持，而BERTopic的协变量比较主要基于描述性分析。这些发现表明STM和BERTopic具备互补优势。我们最后为应用社会科学研究中选择和结合主题建模方法提供了实用指导。

## 提交历史

来自：Yan Jiang [查看邮箱](https://arxiv.org/show-email/eede4031/2605.23093)  
**[v1]** 2026年5月21日星期四 23:00:40 UTC（1,332 KB）

结构主题模型与BERTopic在简短开放式调查回答中的比较评估

相似文章

基于Transformer的嵌入在主题连贯性中的比较研究

面向外部结果关联分析的主题模型与评估框架提案：基于大规模企业评论数据的领导力研究应用

语义空间的几何结构：离散与连续模型的比较研究

主题情感是否影响感知的意识形态？人类与LLM对政治新闻文章标注的比较

高棉语检索增强问答的语言模型比较研究

提交意见反馈