当更好的编码手册仍不足:LLM政治事件编码中的预测性能与行为可靠性
摘要
本文研究了为政治事件编码的专家手册在被转化为LLM友好形式后是否更有效,并发现尽管性能提升,但在受控扰动下的行为可靠性并未完全转化。
arXiv:2606.06781v1 Announce Type: new
摘要:高准确率并不一定使LLM成为忠实的编码器。这个问题很重要,因为许多社会科学研究依赖专家编写的编码手册将文本转化为结构化数据。我们研究政治事件编码中的这个问题,这是一个超越普通句子级分类的具有挑战性的源-目标关系分类任务,模型必须使用详细的编码规则确定一个行为者对另一个行为者做了什么。
我们测试了专家手册在被转化为具有更清晰定义、示例、检索上下文和困难案例规则的LLM友好形式后是否变得更有效。然后我们评估在标签名称、编码手册顺序和标签-定义映射的受控变化下的行为可靠性。更清晰的编码手册显著提高了分类性能,特别是对于细粒度事件分类。然而,这些预测收益并未完全转化为行为可靠性。模型可能生成有效标签并恢复定义,但在受控的编码手册变化下仍无法通过行为可靠性测试。
这些发现表明,编码手册引导的LLM系统不仅应根据准确率进行评估,还应评估它们是否保留了使编码输出对社会科学研究有意义的编码逻辑。
查看缓存全文
缓存时间: 2026/06/08 09:20
# 当更好的编码手册仍不足够:LLM政治事件编码中的预测性能与行为可靠性 来源:https://arxiv.org/html/2606.06781 Zixian He 独立研究者 zixianh@usc\.edu &Bharath Raahul Murugesan 伊利诺伊理工学院 bmurugesan@hawk\.illinoistech\.edu Patrick Brandt 德克萨斯大学达拉斯分校 pbrandt@utdallas\.edu &Yibo Hu 伊利诺伊理工学院 yhu89@illinoistech\.edu 通讯作者。 ###### 摘要 高准确率并不必然使LLM成为忠实的编码器。这个问题之所以重要,是因为许多社会科学研究依赖专家编写的编码手册将文本转化为结构化数据。我们在政治事件编码中研究这一问题,这是一项具有挑战性的源-目标关系分类任务,超越了普通的句子级分类,模型必须根据详细的编码规则确定一个行为主体对另一个行为主体做了什么。我们测试了当专家编码手册被转化为对LLM友好的形式(包含更清晰的定义、示例、检索到的上下文以及难例规则)时,是否变得更有效。然后,我们在标签名称、编码手册顺序和标签与定义映射的受控变化下评估行为可靠性。更清晰的编码手册显著提升了分类性能,尤其是在细粒度事件分类上。然而,这些预测上的提升并不能完全转化为行为可靠性。模型可能产生有效的标签并恢复定义,但在受控编码手册变化下仍无法通过行为可靠性测试。这些发现表明,基于编码手册的LLM系统不仅应根据准确率来评估,还应评估其是否保留了使编码输出对社会科学研究具有意义的编码逻辑。 111代码和数据可在 https://github.com/yibo-hu-lab/event-coding-reliability 获取。 ## 当更好的编码手册仍不足够:LLM政治事件编码中的预测性能与行为可靠性 Zixian He††感谢:与Yibo Hu合作期间完成的工作 独立研究者 zixianh@usc\.edu Bharath Raahul Murugesan 伊利诺伊理工学院 bmurugesan@hawk\.illinoistech\.edu Patrick Brandt 德克萨斯大学达拉斯分校 pbrandt@utdallas\.edu Yibo Hu††感谢:通讯作者。 伊利诺伊理工学院 yhu89@illinoistech\.edu ## 1 引言 参见图注 图1:基于编码手册的LLM事件编码中的预测性能与行为可靠性。专家编码手册被转化为LLM可用的提示或检索输入,并通过在受控编码手册扰动下的预测性能和行为可靠性进行评估。 许多社会科学研究将文本转化为可分析的数据,例如新闻报导描述的是合作、抗议、威胁还是暴力 (Raleigh et al., 2010 (https://arxiv.org/html/2606.06781#bib.bib23); Hu et al., 2024 (https://arxiv.org/html/2606.06781#bib.bib1))。事件编码在政治暴力和冲突研究中尤为重要,因为它将新闻报导表示为结构化的源-行动-目标记录,可用于监测、分析和预测冲突及调解过程 (Schrodt and Gerner, 1996 (https://arxiv.org/html/2606.06781#bib.bib39); Schrodt et al., 2003 (https://arxiv.org/html/2606.06781#bib.bib40), 2004 (https://arxiv.org/html/2606.06781#bib.bib41); Brandt et al., 2011 (https://arxiv.org/html/2606.06781#bib.bib2), 2014 (https://arxiv.org/html/2606.06781#bib.bib16))。这种转化依赖于专家编写的编码手册,它们使编码决策变得明确 (Krippendorff, 2019 (https://arxiv.org/html/2606.06781#bib.bib7); Neuendorf, 2017 (https://arxiv.org/html/2606.06781#bib.bib8))。因此,编码手册是重要的测量资源,但构建和应用成本高昂,因为它们需要领域专业知识、标注者培训和可靠性检查。早期的事件编码系统依赖于事件本体、词典和基于模式的知识库,将新闻文本转化为结构化的政治事件记录 (McClelland, 2006 (https://arxiv.org/html/2606.06781#bib.bib32); Azar, 1980 (https://arxiv.org/html/2606.06781#bib.bib43); Bond et al., 2003 (https://arxiv.org/html/2606.06781#bib.bib44))。后来的系统和资源进一步形式化了自动化政治事件编码 (Gerner et al., 2002 (https://arxiv.org/html/2606.06781#bib.bib3); Boschee et al., 2015 (https://arxiv.org/html/2606.06781#bib.bib45); Open Event Data Alliance, 2018 (https://arxiv.org/html/2606.06781#bib.bib4); Lu and Roy, 2017 (https://arxiv.org/html/2606.06781#bib.bib34))。这些资源使事件编码变得可重用和可解释,但当语言使用、领域或编码方案发生变化时,静态词典和模式匹配系统可能变得脆弱。最近基于监督学习和预训练语言模型的方法提高了社会政治事件抽取和分类的灵活性,但通常需要标注数据,并且在本体演变时可能需要重新标注 (Buyukoz et al., 2020 (https://arxiv.org/html/2606.06781#bib.bib47); Hu et al., 2022 (https://arxiv.org/html/2606.06781#bib.bib19); Parolin et al., 2021a (https://arxiv.org/html/2606.06781#bib.bib20), b (https://arxiv.org/html/2606.06781#bib.bib21), 2022 (https://arxiv.org/html/2606.06781#bib.bib22); Hu et al., 2024 (https://arxiv.org/html/2606.06781#bib.bib1))。这个瓶颈促使人们使用LLM直接应用编码手册。最近的研究表明,定义、示例和编码指令可以改进零样本分类,尤其是当标签具有专业性或难以仅从名称推断时 (Hu et al., 2024 (https://arxiv.org/html/2606.06781#bib.bib1); Ruckdeschel, 2025 (https://arxiv.org/html/2606.06781#bib.bib9); Stuhler et al., 2025 (https://arxiv.org/html/2606.06781#bib.bib14))。然而,强大的预测性能并不一定意味着模型真正应用了编码手册中的定义和规则。这种担忧与关于LLM评估可靠性的更广泛问题相呼应 (Aiyappa et al., 2023 (https://arxiv.org/html/2606.06781#bib.bib42))。模型可能依赖于熟悉的标签语义、提示顺序或预训练关联,而不是编码手册定义的操作逻辑 (Halterman and Keith, 2025 (https://arxiv.org/html/2606.06781#bib.bib6))。 政治事件编码为基于编码手册的LLM提供了一个苛刻的测试环境。完整的事件编码涉及从文本中识别行为主体、行动和有向关系;本文集中研究关系分类组件。给定一段文本和指定的源-目标行为主体对,模型预测源主体针对目标主体采取了什么政治行动。事件编码建立在早期事件数据编码手册(如WEIS (McClelland, 2006 (https://arxiv.org/html/2606.06781#bib.bib32)))之上。像CAMEO和PLOVER这样的本体使用层次化标签和事件模式规则,这些规则可以根据行动是否发生、被承诺、被拒绝或被否定,为类似的措辞分配不同的标签 (Gerner et al., 2002 (https://arxiv.org/html/2606.06781#bib.bib3); Hu et al., 2024 (https://arxiv.org/html/2606.06781#bib.bib1))。这些区别使得政治事件编码成为测试LLM是否遵循编码手册规则而非匹配熟悉标签语义的严格检验。 我们研究两个问题: 1. 1. 更丰富的编码手册操作化能否提高预测性能? 2. 2. 更强的预测性能是否必然意味着行为可靠性? 为了回答这些问题,我们从两个角度评估事件编码LLM:在原始编码手册下的预测性能,以及在受控编码手册变化下的行为可靠性。这种设计将模型是否预测出预期标签与模型的预测是否仍然依赖于所提供的编码规则区分开来。我们的贡献有三方面:(1)我们在一个具有挑战性的政治事件编码环境中研究基于编码手册的LLM评估,该环境包含层次化标签和事件模式区分;(2)我们表明,更丰富的编码手册操作化显著提升了开源LLM的细粒度事件分类;(3)我们将受控扰动探针适应于源-目标事件编码,测试对编码手册顺序、通用标签名称以及标签与定义映射互换的敏感性。 ## 2 预备知识 ### 2.1 编码手册作为测量系统 基于文本的社会科学测量通常需要将文档转化为结构化的变量。在这种设置下,编码手册规定了类别定义和标签边界,指导如何将定性证据转化为可分析的观测值 (Krippendorff, 2019 (https://arxiv.org/html/2606.06781#bib.bib7); Neuendorf, 2017 (https://arxiv.org/html/2606.06781#bib.bib8))。因此,它们提供了编码者(包括用作编码者的模型)应遵循的测量规则。使编码手册有用的同一结构也使得构建和应用它们成本高昂。编码手册的构建需要领域专业知识和迭代改进,而一致使用则依赖于标注者培训和可靠性评估 (Krippendorff, 2019 (https://arxiv.org/html/2606.06781#bib.bib7); Neuendorf, 2017 (https://arxiv.org/html/2606.06781#bib.bib8))。这些成本促使人们使用大规模语言模型作为潜在的编码手册使用者,而无需为每个编码方案训练单独的监督模型。政治事件编码提供了一个有用的测试平台,因为其标签依赖于细粒度的编码规则,而不仅仅是关键词匹配。 ### 2.2 政治事件编码作为挑战性测试平台 政治事件编码将新闻文本转化为政治互动的结构化记录。完整的事件编码可能涉及识别行为主体、行动和关系;本文集中研究关系分类组件。给定一段文本和指定的源行为主体与目标行为主体,模型分配从源指向目标的政治关系。在本研究中,我们使用PLOVER,这是一个基于CAMEO的本体,专为源-目标政治关系分类设计 (Gerner et al., 2002 (https://arxiv.org/html/2606.06781#bib.bib3); Open Event Data Alliance, 2018 (https://arxiv.org/html/2606.06781#bib.bib4); Hu et al., 2024 (https://arxiv.org/html/2606.06781#bib.bib1))。PLOVER标签在三个层级上进行评估:二元层面的合作与冲突;四元层面的语言或物质合作与冲突;以及根源层类别,如同意、援助、拒绝、威胁、抗议、胁迫和攻击。 与抗议相关编码中的事件模式区分 源:抗议者 目标:政府 未来抗议意图 文本:“抗议者表示他们将举行示威活动反对政府。” 二元:冲突 四元:语言冲突 根源:威胁 已完成的抗议行动 文本:“抗议者举行了反对政府的示威活动。” 二元:冲突 四元:物质冲突 根源:抗议 已结束的抗议活动 文本:“抗议者在与政府谈判后结束了示威活动。” 二元:合作 四元:语言合作 根源:屈服 图2:PLOVER中事件模式区分的图示。类似的抗议相关内容可以映射到不同的标签,具体取决于行动是受到威胁、已经执行还是已经停止。 这种层次结构使事件编码成为基于编码手册的LLM的严格测试。如图2 (https://arxiv.org/html/2606.06781#S2.F2)所示,类似的抗议相关内容可以映射到不同的标签,具体取决于行动是受到威胁、已经执行还是已经停止。这些情况需要应用编码手册规则,而不是将关键词与熟悉标签进行匹配。 ### 2.3 编码手册操作化与可靠性 我们的工作与三个研究方向相关联。首先,事件抽取和社会政治事件编码将文本转化为事件、行为主体、论元和关系的结构化记录,通常是在有限标注数据下 (Doddington et al., 2004 (https://arxiv.org/html/2606.06781#bib.bib33); Li et al., 2021 (https://arxiv.org/html/2606.06781#bib.bib29); Hurriyetoglu et al., 2021 (https://arxiv.org/html/2606.06781#bib.bib26); Barker et al., 2021 (https://arxiv.org/html/2606.06781#bib.bib27); Radford, 2021 (https://arxiv.org/html/2606.06781#bib.bib28); Halterman and Radford, 2021 (https://arxiv.org/html/2606.06781#bib.bib25))。其次,自然语言推理为蕴含式分类提供了基础 (Bowman et al., 2015 (https://arxiv.org/html/2606.06781#bib.bib46))。零样本和基于NLI的方法使用标签描述、假设或本体信息将语义知识转移到新的分类模式上 (Obamuyide and Vlachos, 2018 (https://arxiv.org/html/2606.06781#bib.bib17); Yin et al., 2019 (https://arxiv.org/html/2606.06781#bib.bib18); Huang et al., 2018 (https://arxiv.org/html/2606.06781#bib.bib31); Geng et al., 2021 (https://arxiv.org/html/2606.06781#bib.bib49); Hu et al., 2024 (https://arxiv.org/html/2606.06781#bib.bib1))。第三,最近的研究探索了编码手册、提示手册和LLM如何在不针对每个编码方案构建新监督数据集的情况下支持社会科学文本测量 (Ruckdeschel, 2025 (https://arxiv.org/html/2606.06781#bib.bib9); Stuhler et al., 2025 (https://arxiv.org/html/2606.06781#bib.bib14); Than et al., 2025 (https://arxiv.org/html/2606.06781#bib.bib15); Halterman and Keith, 2025 (https://arxiv.org/html/2606.06781#bib.bib6))。在政治事件编码领域,Hu et al. (2024 (https://arxiv.org/html/2606.06781#bib.bib1))表明PLOVER编码手册知识可以转化为自然语言推理假设,用于零样本关系分类。基于提示和提示手册的方法同样将定义、示例和编码指令直接放入模型输入 (Ruckdeschel, 2025 (https://arxiv.org/html/2606.06781#bib.bib9); Stuhler et al., 2025 (https://arxiv.org/html/2606.06781#bib.bib14))。这些方法减少了模式变化时重新训练或重新标注的需求,但它们主要评估模型在原始编码手册下是否预测出正确的标签。我们使用 *编码手册操作化* 来表示将专家编码手册内容转化为LLM可用的形式,包括定义、示例、边界规则和检索到的上下文。这样的表示可能通过使编码规则更易于访问来提高预测性能。然而,在单一提示下的性能并不能确立行为可靠性。因此,我们测试在受控编码手册变化下(这些变化不应改变潜在的源-目标关系),预测是否仍然与预期的编码手册规则挂钩 (Halterman and Keith, 2025 (https://arxiv.org/html/2606.06781#bib.bib6))。 ## 3 方法 本节定义源-目标分类任务,描述编码手册知识如何表示为LLM,并介绍行为可靠性探针。 ### 3.1 任务设定 我们研究源-目标政治关系分类:给定一段文本和指定的源-目标行为主体对,模型预测该有向关系的事件标签。我们在上述PLOVER层次结构下评估此任务,其中根源层编码作为编码手册边界规则应用的最强测试。 ### 3.2 编码手册操作化策略 我们比较了几种向模型呈现编码手册知识的方式。无编码手册基线仅提供文本、标记的源-目标对以及有效的标签集。它测试了仅从标签名称和预训练知识中可以推断出什么。紧凑型编码手册提示为每个标签添加了简短的自然语言定义和更高层级的四元分组。丰富型编码手册提示保持了与紧凑型相同的标签清单,但增加了工作示例、事件模式指导、边界注释以及常见混淆类别的消歧规则。这些补充内容在不改变底层标签空间的情况下,明确了原始编码手册应如何应用。如下所示
相似文章
社会科学中的AI编码智能体:方法论多样、经验一致、解释脆弱
本文评估了基于LLM的编码智能体(Claude Code和Codex)在社会科学分析中的表现,发现它们在方法论多样性方面匹配或超越人类,但在通过结论层操纵产生的解释偏差方面仍然脆弱。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用
本文使用基于扰动的归因分析方法,分析了不同微调策略(全量微调、LoRA、量化LoRA)和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中,而较大的模型会形成特定的解释策略,但性能收益在超过7B参数后出现递减。
人类心理测量问卷误判LLM行为特征
本文发现,人类心理测量问卷无法可靠预测LLM在真实交互中的行为,并提出基于生成的分析方法作为更准确的替代方案。
论大语言模型适应性的局限:模型内化先验对标注任务性能的影响
本文研究了LLM的内化先验如何影响零样本标注性能,发现近三分之二的错误抵抗基于提示的修正,并引入了定义特定熟悉度(DSF)作为比记忆化指标更好的预测因子。