面向外部结果关联分析的主题模型与评估框架提案:基于大规模企业评论数据的领导力研究应用
摘要
本文提出一种基于大语言模型的主题建模方法与评估框架,兼顾可解释性、主题特异性与极性立场一致性,并在利用大规模日企评论数据解释员工士气等外部结果方面表现出更强的解释力。
arXiv:2604.18919v1 公告类型:新
摘要:将文本数据中提取的主题与外部结果关联分析,在计算社会科学和组织研究等领域至关重要。然而,现有主题建模方法难以同时满足可解释性、主题特异性(与具体行为或特征对齐)以及极性立场一致性(主题内不出现正负评价混杂)。本研究聚焦企业评论数据中的领导力分析,提出利用大语言模型生成满足上述属性的主题,并配套面向外部结果分析的评估框架。该框架将主题特异性与极性立场一致性明确纳入评估指标,并探讨基于既有指标的自动化评估方法。通过日本主要企业评论平台 OpenWork 的员工评论数据,实验表明所提方法在可解释性、特异性与极性一致性上优于现有方法,并在解释员工士气等外部结果时具有更高的解释力。结果表明,该方法与评估框架为涉及外部结果的主题分析提供了通用化路径。
查看缓存全文
缓存时间: 2026/04/22 08:29
# 提出面向外部结果关联分析的主题模型与评估框架:以大规模企业评论数据进行领导力分析为例 来源:https://arxiv.org/html/2604.18919 \\__setCJKmainfont[]ipaexm.ttf\\__setCJKsansfont[]ipaexg.ttf 金井真人(Masato Kanai)Accenture Japan·日本 中山昌敬(Masataka Nakayama)京都大学·日本 大泽春辉(Haruki Ohsawa)OpenWork·日本 内田幸子(Yukiko Uchida)京都大学·日本 Yuminaga Arata 星奈学世(Gakuse Hoshina)Accenture Japan·日本 佐山信夫(Nobuo Sayama)Integral·日本 ###### 摘要 将文本数据中提取的主题与外部结果变量关联分析,在计算社会科学、组织研究与市场营销等领域至关重要。然而,现有主题建模方法难以同时满足三大需求: 1. 主题可解释性——便于阐释与外部结果的关系; 2. 主题具体性——与具体行为或特征高度对齐; 3. 极性立场一致性——同一主题内不混杂正负评价。 本研究以企业评论中的领导力分析为场景,提出利用大语言模型(LLM)生成兼具可解释性、具体性与极性一致性的主题,并配套引入面向外部结果分析的评估框架。该框架首次将“主题具体性”与“极性立场一致性”明确纳入评估维度,并检验自动化评估指标在既有度量上的适用性,实现对生成主题的多维审视。基于日本最大企业点评平台 OpenWork 的在职/离职员工评论实验表明,本方法同时满足三项需求,且在员工士气等外部结果分析中,主题解释力显著优于既有方法。本研究为主题分析提供了面向外部结果关联的扩展方法论与评估标准,并展示其跨领域泛化潜力。 主题模型与评估指标 ††copyright:none††conference:; ; ## 1 引言 ### 1.1 领导力、绩效与员工敬业度 提升组织绩效一直是管理核心目标,近年研究指出员工活力、工作敬业度等心理要素同样关键(Harter 2002;Judge 2001)。因此,需同步考察促进绩效与员工心理福祉的因子。领导力被公认为同时影响组织绩效与员工敬业度的关键因素,从高管到中层、直属上司的多层级领导力均与员工高绩效及积极心理状态相关(Judge 2004;Montano 2017)。自 1930 年代以来,领导力成为管理与心理学中心议题,西方语境下形成了众多理论框架(House 1997;Solansky 2017),从早期特质/行为理论演变为变革型/交易型等复杂框架(DeRue 2011),并发展出多种测量工具(Avolio 1999;Warner-Soderholm 2020)。元分析已累积大量证据(DeRue 2011;Judge 2004;Montano 2017),但仍存在三点局限: - 证据多集中于西方文化; - 依赖特定理论框架; - 跨公司研究将领导力特征抽象为宽泛类别。 亟需数据驱动、跨公司且可细粒度刻画领导力行为的方法。 ### 1.2 本研究思路 为突破上述局限,我们利用日本最大企业点评平台“OpenWork”积累的大规模文本,对在职/离职员工评论进行主题建模,考察评论中反映的领导力特征与公司绩效及员工士气的关系。结合用户生成、可跨公司比较的 OpenWork 评论与包括大语言模型在内的最新自然语言处理技术,实现高效、精准、灵活的分析。员工自发评价可细致呈现日本企业领导力实践。 ## 2 相关工作 ### 2.1 既有领导力研究局限 1. 过度依赖西方组织样本; 2. 理论驱动导致理论与实证可能错位; 3. 跨公司研究因元分析整合而过度抽象。 ### 2.2 面向结果的主题建模技术需求 应用端要求主题具备可解释性、具体性与极性一致性,并配套评估框架。若正负评价混于同一主题,其与外部变量的效应可能相互抵消,难以落地。 ### 2.3 既有主题模型局限 LDA、STM 等词袋模型无法捕捉语序与上下文,可能生成不连贯主题;BERTopic、TopicGPT 等虽提升可解释性,但未显式分离极性,仍可能正负混杂。 ### 2.4 既有评估指标局限 自动连贯度指标与人感知的可解释性偏差大;人工评估虽准却难规模化;尚无研究将“具体性”“极性一致性”列为正式评估维度。 ## 3 目标与贡献 1. 提出同时满足可解释性、具体性、极性一致性的主题建模方法与自动化评估框架; 2. 以 OpenWork 评论为实例,分析领导力特征对公司绩效与员工士气的影响,验证方法在社会科学研究与企业管理中的实用价值。 ## 4 方法 ### 4.1 主题建模框架 #### 4.1.1 概述 流程: 1. 输入文档集; 2. BERTopic 生成初始主题; 3. LLM 将文档重分配至零或多个主题; 4. LLM 按极性拆分主题; 5. 合并语义相关主题。 见图1(https://arxiv.org/html/2604.18919#S4.F1)。 #### 4.1.2 BERTopic 初始建模 先用文档嵌入+PCA 降维,再用 BERTopic 聚类生成初始主题;对每主题抽取关键词与示例文档,交由 LLM 生成主题名称与描述。 #### 4.1.3 LLM 主题重分配 将主题名称+描述与全部文档输入 LLM,让模型重新为每篇文档分配主题(可零可多)。BERTopic 使用 HDBSCAN…
相似文章
大型语言模型中的解释公平性:关于LLM在不同人口群体中如何证明决策的实证分析
本文提出了“解释公平性分类法”(Explanation Fairness Taxonomy, EFT),以分析大型语言模型(LLM)在不同人口群体中证明决策时的差异,研究发现尽管决策本身保持平衡,但在解释的质量和语调上仍存在显著偏差。
社交媒体中因果关系提取的大型语言模型:灾害情报的验证框架
本文提出了一个验证框架,用于评估大型语言模型(LLM)在灾害期间从社交媒体帖子中提取因果关系的有效性。通过将LLM生成的结果与基于专家知识的参考图谱进行比较,评估其在识别因果关系方面的可靠性及潜在风险。
面向威胁主体分析的日本网络评论作者归属基础研究
这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容,对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言,BERT-FT的表现最佳;但在将任务扩展至数百位作者的场景时,TF-IDF+LR在稳定性与效率上展现出更大优势。
真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析
研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。
实验还是结果?探测大语言模型中的科学可行性
UMBC 研究人员发现,大语言模型在判断科学主张是否可行时,依据结果数据比依据实验描述更准确;不完整的实验背景反而会降低准确率。