口号还是立场?面向中国国企演讲中创业话语测量的轻标注诊断方法

arXiv cs.CL 论文

摘要

本文提出了一种轻标注测量诊断方法,用于评估流行的文本分析方法(词典、主题模型、词嵌入、大语言模型)在创业话语测量中捕捉实质性立场与象征性修辞的能力。研究使用了80场中国国企演讲语料库,并利用同一公司不同演讲者配对的自然实验。作者发现,零样本大语言模型表现出更高的敏感性,但效应中相当一部分可能源于演讲者个人语言风格而非实质性立场。

arXiv:2605.29188v1 Announce Type: new 摘要:词典方法、主题模型和嵌入相似度评分器被广泛用于计算社会科学与管理研究,以衡量企业演讲中的“创业精神”等构念。我们贡献了一种针对此类工具的轻标注测量诊断方法,而非提出新的提取模型。基于80场中央管理国有企业领导人的演讲语料库,我们利用24个同公司不同演讲者配对和5个同公司同演讲者配对的自然实验,检验某一方法在每篇文档上的指标是否随领导者身份变化(保持公司不变)。LDA失败(Cohen d=0.20,95% CI [-0.72, 1.20]);词典评分器达到d=0.81,中文句子编码器在文档向量距离量级为10^-3时达到d=0.65。一个零样本90亿参数开源大语言模型(Qwen3.5:9b)将配对对比d值提升至1.09(精确置换检验p1=0.034)。我们据此对三个主张进行降级处理:黄金F1衡量的是与大语言模型自身提示规则的一致性,而非外部构念恢复;文档级风格残差化将大语言模型的d值降至0.43(p1=0.22),因此约一半效应与领导者个人语言风格一致;置信加权校正以Δ换取方差,而自动挖掘的口号词典在消融实验中近乎无效。我们发布了包含2190个片段的评分语料库、170段试点文本、口号词典、两族大语言模型评分以及评估工具包。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:16

# 口号还是立场?面向中国国企讲话的创业话语测量的轻标签诊断方法
来源:https://arxiv.org/html/2605.29188

###### 摘要

词典方法、主题模型和嵌入相似度评分被广泛用于计算社会科学(CSS)与管理学研究中测量企业讲话中的“企业家精神”等构念。我们为这类工具贡献了一种**轻标签测量诊断方法**,而非新的抽取模型。基于一个由80篇中央管理国有企业领导人讲话组成的语料库,我们利用24对同一企业、不同演讲者以及5对同一企业、同一演讲者的自然实验,检验在保持企业恒定的情况下,各方法的文档层面指标是否随领导人身份而变化。LDA失效(Cohen’s d=0.20,95% CI[-0.72,1.20]);词典评分器达到d=0.81,中文句子编码器在文档向量距离量级为10^{-3}时达到d=0.65。零样本90亿参数开源大语言模型(Qwen3.5:9b)将配对对比d值提升至1.09(精确置换检验p1=0.034)。我们据此对三项主张进行了降级处理:黄金F1衡量的是与大语言模型自身提示规则的一致性,而非外部构念的恢复;文档级风格残差化将大语言模型的d值降至0.43(p1=0.22),表明约一半的效果与领导人个人语言风格一致;置信度加权校准以方差为代价换取Δ提升,而自动挖掘的口号词典在消融实验中近乎无效。我们发布了包含2190个段落的评分语料库、170段试点黄金标准、包含53个词条的口号词典、双系列大语言模型评分结果以及完整的评估框架。

口号还是立场?面向中国国企讲话的创业话语测量的轻标签诊断方法

龚婷,孙尚泉🖂清华大学
[email protected]

## 1 引言

关于创业与公司治理的实证研究依赖于从公司披露和领导讲话中提取的文本指标。这类指标被用于研究企业绩效、创新和政治关联,通常基于三种方法家族:关键词词典(Loughran and McDonald 2011 (https://arxiv.org/html/2605.29188#bib.bib1);Baker et al. 2016 (https://arxiv.org/html/2605.29188#bib.bib2);Huang and Luk 2020 (https://arxiv.org/html/2605.29188#bib.bib3))、潜在主题模型(Blei et al. 2003 (https://arxiv.org/html/2605.29188#bib.bib4))以及预训练的词或句子嵌入(Mikolov et al. 2013 (https://arxiv.org/html/2605.29188#bib.bib90);Devlin et al. 2019 (https://arxiv.org/html/2605.29188#bib.bib88))。这三种方法都测量主题**覆盖度**:即文档讨论创新、风险或可持续性的程度。然而,这些方法均非用于区分演讲者关于某一构念的**实质性**立场与演讲者关于该构念的**象征性修辞**表现。

在话语体裁中,当象征性表演成为制度契约的一部分时,这种区分至关重要。中央管理国有企业(SOE)领导人的讲话便是典型例子。国有企业董事长的讲话不仅包含运营报告,例如具体的资产剥离、命名的合资企业或有具体数字依据的研发项目,还预期包含经典的政治性表述——例如政策口号“培育具有全球竞争力的世界一流企业”或教条式表述“国有企业是中国特色社会主义的重要物质基础和政治基础”(更多条目见表2 (https://arxiv.org/html/2605.29188#S4.T2))。这两类内容在同一讲话中并存,甚至常在同一段落中出现。基于这类讲话计算的词典式“创新指数”在很大程度上由前者驱动,因为口号包含了手工编制词典能识别的大部分关键词,且在不同讲话间可以互换。

因此,我们提出疑问:**广泛部署于中国企业语料库的标准创业话语提取方法,测量的是领导人层面的立场,还是重复出现的政治象征主义?**

为在无需进行新一轮标注的情况下回答这一问题,我们利用了语料库的一个特性:51家企业中有29家出现在两轮访谈中。其中24对跨轮次配对涉及同一企业**领导人变更**;另外5对是同一领导人**再次出现**。如果某种方法能够捕捉领导人层面的立场,其文档向量在领导人变更配对中的差异应大于同一领导人配对中的差异。如果方法捕捉的是企业的行业主题或共同的政治仪式,那么两个分布应无法区分。

我们的贡献如下:

1. 一种面向表演性公司话语中立场提取的**领导人变更配对评估**方法,无需领域内标注(§5 (https://arxiv.org/html/2605.29188#S5))。
2. 对四种方法家族在80篇中央国企讲话上的审计,结果表明词典、LDA和BGE编码器方法均未通过评估:其配对对比效应要么在95%自助法置信区间内跨越零,要么基于量级为10^{-3}的文档向量距离计算(§6 (https://arxiv.org/html/2605.29188#S6))。一项补充的**同义改写鲁棒性**实验证实,当实质性内容被改写成口号风格时,词典基线会**提高**其得分(§6.6 (https://arxiv.org/html/2605.29188#S6.SS6))。
3. 在零样本90亿参数开源大语言模型(Qwen3.5:9b)上的一组**置信度加权校准**方法,权衡了两项配对对比指标:绝对Δ提升了27%,但Cohen’s d从1.09降至0.83;消融实验将提升归因于大语言模型的自我置信度,而非自动挖掘的口号词典。定性排序在跨家族大语言模型检验(Qwen3.5:27b,§6.5 (https://arxiv.org/html/2605.29188#S6.SS5))中得到保持。
4. 发布了包含2190个段落的评分语料库、170段试点黄金标准、包含53个词条的自动挖掘口号词典以及完整的评估框架。

## 2 相关工作

#### 创业导向与创业领导力

管理与创业文献长期以来将创业导向(EO)视为一个包含创新性、先动性、风险承担、自主性和竞争侵略性的结构化构念(Miller 1983 (https://arxiv.org/html/2605.29188#bib.bib73);Covin and Slevin 1989 (https://arxiv.org/html/2605.29188#bib.bib74);Lumpkin and Dess 1996 (https://arxiv.org/html/2605.29188#bib.bib75)),后续综述既强调其企业层面的核心地位,也指出其在不同情境中操作化的不稳定性(Rauch et al. 2009 (https://arxiv.org/html/2605.29188#bib.bib76);Wales 2016 (https://arxiv.org/html/2605.29188#bib.bib77))。关于公司创业和创业领导力的平行研究认为,这类构念是通过战略姿态和领导者话语而非孤立关键词来实现的(Dess and Lumpkin 2005 (https://arxiv.org/html/2605.29188#bib.bib78);Kuratko and Hornsby 1999 (https://arxiv.org/html/2605.29188#bib.bib79);Harrison et al. 2016 (https://arxiv.org/html/2605.29188#bib.bib80);Bagheri and Harrison 2020 (https://arxiv.org/html/2605.29188#bib.bib81))。本文继承了这一测量目标,并追问标准文本即数据(text-as-data)流程能否从国企讲话中恢复该构念。

#### 基于词典的话语测量

Loughran–McDonald金融情感词典(Loughran and McDonald 2011 (https://arxiv.org/html/2605.29188#bib.bib1))、Tetlock的媒体情感工作(Tetlock 2007 (https://arxiv.org/html/2605.29188#bib.bib91))以及Baker–Bloom–Davis经济政策不确定性指数(Baker et al. 2016 (https://arxiv.org/html/2605.29188#bib.bib2))及其中文扩展(Huang and Luk 2020 (https://arxiv.org/html/2605.29188#bib.bib3)),是研究项目将潜在公司话语构念通过手工编制的词表进行操作化的典型代表。在中国企业文献中,同样的模板被应用于“企业家精神”、创新导向和政治使命框架,通常采用文档级别种子词命中比例的形式。其隐含假设是文档中与构念相关词汇的分布能提供关于文档潜在立场的信息。我们的配对对比评估使这一假设可检验:如果假设成立,词典得分在领导者之间必须比在领导者内部变化更大。我们的发现(§6 (https://arxiv.org/html/2605.29188#S6))表明,至少对于国企领导讲话而言,该假设在实证上是薄弱的。

#### 主题模型、层次分类与嵌入相似度

潜在狄利克雷分配(LDA)(Blei et al. 2003 (https://arxiv.org/html/2605.29188#bib.bib4))在CSS对长政治与企业文本的分析中应用广泛(Grimmer and Stewart 2013 (https://arxiv.org/html/2605.29188#bib.bib12);Roberts et al. 2014 (https://arxiv.org/html/2605.29188#bib.bib13))。基于嵌入的主题模型(Angelov 2020 (https://arxiv.org/html/2605.29188#bib.bib5))将这一思路推广到连续空间;层次多标签文本分类(Chalkidis et al. 2020 (https://arxiv.org/html/2605.29188#bib.bib44);Shen et al. 2021 (https://arxiv.org/html/2605.29188#bib.bib23);Xu et al. 2021 (https://arxiv.org/html/2605.29188#bib.bib28);Falis et al. 2021 (https://arxiv.org/html/2605.29188#bib.bib45))更接近我们的L1/L2分类体系,但需要标注训练数据,而这里不具备该条件。现代中文句子编码器,如BGE(Xiao et al. 2024 (https://arxiv.org/html/2605.29188#bib.bib6)),基于Sentence-BERT路线(Reimers and Gurevych 2019 (https://arxiv.org/html/2605.29188#bib.bib89)),实现了强大的零样本检索性能,是CSS中无监督维度评分的常见默认选择。我们对所有三个家族进行了基准测试,并分析了每个家族在配对对比任务上表现不佳的原因:LDA恢复的是行业主题而非立场维度,领域单调的句子编码器在同质语料库上压缩了文档间距离(§6 (https://arxiv.org/html/2605.29188#S6),§7 (https://arxiv.org/html/2605.29188#S7))。

#### 立场、框架与表演性话语

NLP领域长期以来区分立场与主题,主要针对短文本社交媒体数据(Mohammad et al. 2016 (https://arxiv.org/html/2605.29188#bib.bib7);Allaway and McKeown 2020 (https://arxiv.org/html/2605.29188#bib.bib8))。政治传播中的框架分析(Card et al. 2015 (https://arxiv.org/html/2605.29188#bib.bib9);Field et al. 2018 (https://arxiv.org/html/2605.29188#bib.bib14))将话语视为在竞争性重点之间的选择,而非单一维度上的位置,近期一些研究将其扩展至企业传播(Ziems et al. 2024 (https://arxiv.org/html/2605.29188#bib.bib15))。政治理论与语言学中的另一条研究线索将制度性话语视为**表演性**的:话语的主要功能不是断言,而是执行制度行为(Austin 1962 (https://arxiv.org/html/2605.29188#bib.bib16);Searle 1969 (https://arxiv.org/html/2605.29188#bib.bib17))。国企领导讲话在此意义上具有表演性:其中包含的政治性表述服务于角色扮演,而非信息传递。我们的口号/实质性内容分离,在公司话语场景中定量操作化了这一区分,该场景下表演性内容与实质性内容共处于同一段落。这一举措也连接了将创业传播视为修辞、话语和意义建构而非透明披露的创业研究(Holt and Macpherson 2010 (https://arxiv.org/html/2605.29188#bib.bib82);Roundy and Asllani 2018 (https://arxiv.org/html/2605.29188#bib.bib84);Riedy 2022 (https://arxiv.org/html/2605.29188#bib.bib86);Salmivaara and Kibler 2020 (https://arxiv.org/html/2605.29188#bib.bib87);Caliskan and Lounsbury 2022 (https://arxiv.org/html/2605.29188#bib.bib83);Steyaert 2005 (https://arxiv.org/html/2605.29188#bib.bib85))。这些研究激发了我们的核心关注:看似“创业性”的语言可能部分反映的是话语模板或制度体裁,而非领导者的实质性战略立场。

#### NLP测量中的构念效度

Jacobs and Wallach 2021 (https://arxiv.org/html/2605.29188#bib.bib18)认为,基于NLP的测量工具通常混淆操作化测量与理论构念,并呼吁采用类似于心理测量学中标准的测量效度诊断。我们的领导人变更配对评估为表演性公司话语贡献了这样一种诊断:由于设计在改变领导人的同时保持企业恒定,那些对企业行业而非领导人立场进行评分的方法,无需构念层面的标签即可被揭露。针对金融NLI、风险文本和ESG披露的企业NLP基准(Mathur et al. 2022 (https://arxiv.org/html/2605.29188#bib.bib66);Magomere et al. 2025 (https://arxiv.org/html/2605.29188#bib.bib62);Tang and Yang 2025 (https://arxiv.org/html/2605.29188#bib.bib57);He et al. 2025 (https://arxiv.org/html/2605.29188#bib.bib71);Padhi et al. 2024 (https://arxiv.org/html/2605.29188#bib.bib36))大多将语料库视为陈述性的而非表演性的。

#### 大语言模型作为标注者与测量工具

前沿大语言模型已被证明在立场和框架任务上达到或超越众包标注者的一致性(Gilardi et al. 2023 (https://arxiv.org/html/2605.29188#bib.bib10)),越来越多的文献将其用作人类标注者的可扩展替代品,或作为CSS工作中的裁判与探针(Ziems et al. 2024 (https://arxiv.org/html/2605.29188#bib.bib15);Heseltine and Clemm von Hohenberg 2024 (https://arxiv.org/html/2605.29188#bib.bib19);Koval et al. 2024 (https://arxiv.org/html/2605.29188#bib.bib63);Liscio et al. 2022 (https://arxiv.org/html/2605.29188#bib.bib40);Chuang et al. 2025 (https://arxiv.org/html/2605.29188#bib.bib69))。随之而来的问题是,基于大语言模型评分构建的下游方法是否除了重新包装大语言模型之外还有额外贡献。我们的消融实验(§6.4 (https://arxiv.org/html/2605.29188#S6.SS4))直接回应了这一点:贡献最大绝对提升的口号感知校准项是对大语言模型自身实质性置信度输出的乘数,而非外部挖掘的口号词典。我们将此解释为,在该语料库上,事后校准所增加的大部分价值来自可审计的置信度重新加权,而非正交信号恢复。

## 3 数据

#### 语料库

我们使用了80篇2018年至2021年间中央管理国有企业领导人及国有资产监督管理委员会(SASAC)官员公开的讲话。在规范企业名称后,80篇文档覆盖51个独立组织;其中29个出现在两轮访谈中。文档层面统计见表1 (https://arxiv.org/html/2605.29188#S3.T1)。

表1:语料库摘要。
#### 段落构建

每篇讲话按空行拆分为段落。任何超过600字符的段落被递归拆分:首先在枚举标记(如*首先*、*其次*)和对比连接词(如*然而*、*此外*)处拆分,必要时在句子边界处拆分。长度小于10字符的片段(可能是标题)被舍弃。由此产生的2190个段落的中位长度为

相似文章

主题情感是否影响感知的意识形态?人类与LLM对政治新闻文章标注的比较

arXiv cs.CL

本文探讨了主题情感是否对新闻文章中感知到的政治意识形态产生因果影响,比较了来自 AllSides 的人类标注与来自包括 GPT-4o-mini 和 Llama-3.3-70B 在内的 LLM 标注。研究发现,微调后的 GPT-4o-mini 表现出一种虚假的情感-意识形态耦合,而这种耦合在人类判断中并不存在,这凸显了在因果分析中使用 LLM 标注作为代理的风险。