比较BERT句子对分类与少样本大语言模型提示在德语气候新闻中检测威胁与解决方案框架
摘要
本文比较了微调BERT(gbert-large)与少样本大语言模型提示(Llama 4 Maverick)在德语气候新闻句子中检测威胁与解决方案框架的效果。BERT获得了更高的F1分数(0.83 vs 0.78),消融研究表明提供前一句上下文可提升性能。
查看缓存全文
缓存时间: 2026/06/26 05:17
# 比较 BERT 句子对分类与少样本 LLM 提示在德语气候新闻中检测威胁与解决方案框架的效果 来源:https://arxiv.org/html/2606.26489 Raven Adam¹,David Maier¹,Marie Kogler¹,² ¹奥地利格拉茨大学 ²奥地利格拉茨技术大学 ###### 摘要 新闻媒体在塑造公众对气候变化认知方面扮演核心角色,而报道是强调威胁还是解决方案,对受众参与度和政策支持具有可测量的影响。在句子层面自动检测这些框架模式,将使研究人员能够分析大规模语料库,而手动编码这类语料库在实践中不可行。我们系统比较了两种方法,用于将德语气候新闻文章中的句子分类为威胁导向、解决方案导向、两者兼具或两者皆非。第一种方法采用带少样本提示的开源大型语言模型(Llama 4 Maverick),结合思维链推理和带置信度评分的有结构化输出。第二种方法微调一个德语 BERT 模型(deepset/gbert-large)进行句子对分类,其中前一句为目标句子提供上下文信息。两种方法均实现两个独立的二元分类器,一个用于威胁框架,一个用于解决方案框架。我们在一个包含 440 篇奥地利报纸文章(由领域专家开发的详细编码方案手动编码)的语料库上评估了两种方法。微调后的 BERT 分类器在威胁和解决任务上均达到 0.83 的 F1 分数,而基于 LLM 的分类器达到 0.78。消融研究证实,与单句输入相比,提供前一句作为上下文能显著提高 BERT 分类性能。这些结果补充了计算社会科学中比较微调编码器模型与提示生成模型进行文本分类的日益增多的研究。 关键词:气候变化框架,文本分类,BERT,大型语言模型,少样本提示,德语自然语言处理,计算内容分析 ## 1 引言 媒体如何构建气候变化框架会影响受众对其的理解、感受以及采取行动的意愿。气候传播研究反复表明,威胁导向框架(强调风险和危险)和解决方案导向框架(呈现行动和补救措施)会引发不同的受众反应(Hart and Feldman, 2014 (https://arxiv.org/html/2606.26489#bib.bib3); Feldman and Hart, 2018 (https://arxiv.org/html/2606.26489#bib.bib5))。没有伴随效能信息的威胁框架可能引发宿命论,而解决方案导向的报道则促进建设性参与和政策支持(Feldman et al., 2015 (https://arxiv.org/html/2606.26489#bib.bib4); Thier and Lin, 2022 (https://arxiv.org/html/2606.26489#bib.bib7))。因此,追踪大规模媒体语料库中这两种框架类型之间的平衡,对于研究气候话语的传播学者具有直接意义。 内容分析仍是研究媒体框架的主要方法,但人工编码劳动密集且难以扩展。一项研究可能需要经过训练的人力花费数周时间才能对几百篇文章进行编码(Grimmer and Stewart, 2013 (https://arxiv.org/html/2606.26489#bib.bib45); Boumans and Trilling, 2016 (https://arxiv.org/html/2606.26489#bib.bib46))。基于自然语言处理(NLP)的自动化方法可以处理数量级更大的文本,但其可靠性必须通过人工判断进行验证(Grimmer and Stewart, 2013 (https://arxiv.org/html/2606.26489#bib.bib45))。在现有的自动化方法中,近年来有两种占据主导地位。第一种是在标注训练数据上微调预训练的基于 Transformer 的编码器模型(如 BERT,Devlin et al., 2019 (https://arxiv.org/html/2606.26489#bib.bib17))。第二种是通过上下文学习提示大型语言模型(LLM)进行分类,无需参数更新(Brown et al., 2020 (https://arxiv.org/html/2606.26489#bib.bib29); Gilardi et al., 2023 (https://arxiv.org/html/2606.26489#bib.bib40))。两种方法在各种文本分类任务中都表现出色,但涉及根本不同的权衡。微调模型需要标注训练数据和用于训练的计算资源,但推理速度快且具有确定性。基于 LLM 的方法除了提示中的少量可选示例外不需要训练数据,但依赖于精心的提示设计,并且每个样本的推理成本更高。最近的比较研究发现,微调后的编码器模型在分类任务上通常优于零样本和少样本 LLM,而基于提示的方法(如思维链和结构化输出)在某些设置下可以提高性能(Bucher and Martini, 2024 (https://arxiv.org/html/2606.26489#bib.bib35); Galke and Scherp, 2024 (https://arxiv.org/html/2606.26489#bib.bib56); Edwards and Camacho-Collados, 2024 (https://arxiv.org/html/2606.26489#bib.bib37); Wei et al., 2022 (https://arxiv.org/html/2606.26489#bib.bib30); Dunivin, 2025 (https://arxiv.org/html/2606.26489#bib.bib39))。 尽管对自动化框架检测(Ali and Hassan, 2022 (https://arxiv.org/html/2606.26489#bib.bib55); Piskorski et al., 2023 (https://arxiv.org/html/2606.26489#bib.bib53))和基于 LLM 的内容分析(Gilardi et al., 2023 (https://arxiv.org/html/2606.26489#bib.bib40); Ziems et al., 2024 (https://arxiv.org/html/2606.26489#bib.bib42))兴趣渐增,但尚无研究直接比较这两种方法在句子层面检测气候特定框架。大多数计算框架研究使用通用框架分类法(Card et al., 2015 (https://arxiv.org/html/2606.26489#bib.bib48)),而非领域特定类别。然而,通用框架无法捕捉气候传播研究中核心的威胁与解决方案之分,并且针对一种框架分类法训练的分类器无法可靠地迁移到另一种。同样,关于德语气候媒体的研究仍然有限(Hase et al., 2021 (https://arxiv.org/html/2606.26489#bib.bib12); Adam et al., 2023 (https://arxiv.org/html/2606.26489#bib.bib15)),尽管框架模式、编辑惯例和语言结构在不同语言中存在差异,从而影响分类器性能(Piskorski et al., 2023 (https://arxiv.org/html/2606.26489#bib.bib53); Mondshine et al., 2025 (https://arxiv.org/html/2606.26489#bib.bib34))。 本文做出三项贡献。首先,我们系统比较了微调 BERT 与少样本 LLM 提示在句子级气候框架分类上的表现,并基于手动编码的德语报纸文章进行评估。其次,我们证明通过 BERT 的句子对输入格式提供前一句作为上下文,相较于单句分类可带来显著提升。第三,我们描述了用于 LLM 框架分类的详细提示架构,其中包含思维链推理、言语行为分类法和源语言中特定领域的编码规则。 ## 2 相关工作 ### 2.1 气候传播中的威胁与解决方案框架 框架,如 Entman (1993 (https://arxiv.org/html/2606.26489#bib.bib1)) 所定义,涉及选择并突显感知现实的某些方面,以促进特定的问题定义、因果解释和治疗建议。在气候传播中,框架研究已识别出大量反复出现的模式。Nisbet (2009 (https://arxiv.org/html/2606.26489#bib.bib2)) 提出了气候特定框架的类型学,包括科学不确定性、经济发展和道德。Badullovich et al. (2020 (https://arxiv.org/html/2606.26489#bib.bib9)) 绘制了 274 项研究,发现科学、经济和环境框架占主导,而 Guenther et al. (2024 (https://arxiv.org/html/2606.26489#bib.bib10)) 在 25 年文献中识别出 18 个预定义框架,其中“气候行动”和“有害影响”是最常研究的两个。 威胁框架与解决方案框架之间的区分对于理解受众反应尤为重要。Hart and Feldman (2014 (https://arxiv.org/html/2606.26489#bib.bib3)) 发现美国电视新闻频繁传达气候威胁,但提供的效能信息不一致,即影响与潜在行动很少同时出现。Feldman et al. (2015 (https://arxiv.org/html/2606.26489#bib.bib4)) 将此发现扩展至印刷媒体,并记录了报纸在平衡威胁与效能方面的党派差异。最近,Guenther et al. (2022 (https://arxiv.org/html/2606.26489#bib.bib6)) 分析了国际新闻杂志从厄运框架向可持续解决方案的转变,Thier and Wu (2024 (https://arxiv.org/html/2606.26489#bib.bib8)) 则进行了迄今为止最详细的解决方案导向气候框架实证研究,分析了 244 篇文章并识别出三个先前未描述的解决方案框架。 关于德语和奥地利气候媒体的研究仍然有限但正在增长。Hase et al. (2021 (https://arxiv.org/html/2606.26489#bib.bib12)) 发现德国的气候报道仅占其十国样本中所有文章的 0.24%。Adam et al. (2023 (https://arxiv.org/html/2606.26489#bib.bib15)) 使用 NLP 管道分析了奥地利报纸报道的长期趋势。最近,Dablander et al. (2025 (https://arxiv.org/html/2606.26489#bib.bib13)) 利用 GPT-4 辅助分析研究德国媒体对气候活动组织的报道,Meyer et al. (2025 (https://arxiv.org/html/2606.26489#bib.bib14)) 考察了 21 个不同政治倾向的德国媒体之间的框架差异。 ### 2.2 基于 Transformer 的文本分类 Transformer 架构(Vaswani et al., 2017 (https://arxiv.org/html/2606.26489#bib.bib16))及其双向变体 BERT(Devlin et al., 2019 (https://arxiv.org/html/2606.26489#bib.bib17))通过预训练和微调确立了当前文本分类的范式。BERT 的句子对输入格式,将两个文本段用特殊分隔符连接,最初设计用于自然语言推理和释义检测等任务。该格式也允许利用第二段的额外上下文信息来对目标句子进行分类。对于德语任务,Chan et al. (2020 (https://arxiv.org/html/2606.26489#bib.bib19)) 引入了 GBERT 和 GELECTRA,这些使用整词遮蔽训练的德语单语模型在德语 NLP 基准测试中优于 XLM-RoBERTa(Conneau et al., 2020 (https://arxiv.org/html/2606.26489#bib.bib20))等多语言替代方案,使得单语模型成为单语言分类任务的首选。 利用上下文信息进行句子级分类已在多项研究中得到探索。Cohan et al. (2019 (https://arxiv.org/html/2606.26489#bib.bib21)) 表明,通过联合句子表示融入文档上下文可以改善顺序句子分类。Luoma and Pyysalo (2020 (https://arxiv.org/html/2606.26489#bib.bib22)) 研究了跨句子上下文对 BERT 命名实体识别的影响,发现将目标句子置于文档上下文中能带来持续提升。这些发现为我们基于 BERT 的方法中采用句子对方法提供了动机。具体到气候领域,Webersinke et al. (2022 (https://arxiv.org/html/2606.26489#bib.bib25)) 证明在气候文本(ClimateBERT)上进行领域自适应预训练可以改善下游任务性能,Stammbach et al. (2023 (https://arxiv.org/html/2606.26489#bib.bib26)) 将微调后的 Transformer 应用于环境声明的句子级分类。对于框架检测,Liu et al. (2019 (https://arxiv.org/html/2606.26489#bib.bib49)) 通过微调 BERT 对新闻标题进行分类,达到了 84% 的准确率,SemEval-2023 多语言框架检测共享任务(Piskorski et al., 2023 (https://arxiv.org/html/2606.26489#bib.bib53))中最佳系统基于微调后的 XLM-RoBERTa。 ### 2.3 基于 LLM 的文本分类 Brown et al. (2020 (https://arxiv.org/html/2606.26489#bib.bib29)) 证明大型语言模型可以通过上下文学习,仅凭提示中的少量示例来执行 NLP 任务。Wei et al. (2022 (https://arxiv.org/html/2606.26489#bib.bib30)) 表明思维链(CoT)提示,即提示模型在给出最终答案之前产生中间推理步骤,可以显著改善复杂任务的表现。这两种技术构成了当前大多数基于 LLM 的分类方法的基础。 几项研究评估了 LLM 作为社会科学研究文本标注工具的适用性。Gilardi et al. (2023 (https://arxiv.org/html/2606.26489#bib.bib40)) 发现零样本 ChatGPT 在框架检测和其他标注任务上优于众包工作者。Alizadeh et al. (2025 (https://arxiv.org/html/2606.26489#bib.bib41)) 将此工作扩展到基于开源 LLaMA 和 Mistral 的模型,表明微调可以缩小与专有系统的差距。Dunivin (2025 (https://arxiv.org/html/2606.26489#bib.bib39)) 证明 CoT 提示可显著提高定性编码任务的编码间信度,Farjam et al. (2025 (https://arxiv.org/html/2606.26489#bib.bib52)) 提出了用于通信研究中 LLM 辅助内容分析的实用工作流。提示设计本身已发展成一个研究领域。Schulhoff et al. (2024 (https://arxiv.org/html/2606.26489#bib.bib32)) 编录了 58 种不同的提示技巧,而 Mei et al. (2025 (https://arxiv.org/html/2606.26489#bib.bib31)) 将上下文工程视为一个更广泛的学科,涵盖检索、处理和管理在推理过程中提供给 LLM 的所有上下文信息。对于多语言应用,Mondshine et al. (2025 (https://arxiv.org/html/2606.26489#bib.bib34)) 表明,使用源语言提示与各种翻译策略的相对收益高度依赖于具体任务和模型,这意味着最佳提示语言无法预先假设,必须通过实证评估。 ## 3 数据 ### 3.1 语料库 语料库包含来自两家奥地利日报的 440 篇文章:Kronen Zeitung(304 篇)和 Der Standard(136 篇),发表于 2024 年 1 月至 6 月。选择这两家报纸是因为它们是除地区性和免费出版物外发行量最高的奥地利日报,且代表了对立的编辑方针。文章从 WISO 数据库(GBI-Genios)检索,检索词为 `klima* OR CO2`,该检索词通过迭代优化确定,能捕获与更广泛的气候相关关键词相同的相关文章,同时产生更少的不相关结果(Adam et al., 2023 (https://arxiv.org/html/2606.26489#bib.bib15))。检索到的文章经过人工筛选,检查是否与气候变化或气候保护主题相关,排除了读者来信和公告等文章类型。在编码过程中经仔细检查发现不符合标准的文章被移除,最终得到 440 篇文章的语料库。 ### 3.2 标注 文章使用 MAXQDA 软件按照详细的编码方案进行手工编码,该编码方案是与语言学家合作,作为一个更广泛的跨学科研究项目的一部分开发的。编码方案
相似文章
# 微调长存:针对特定任务的Transformer在Reddit虚假信息回复分类中优于零样本LLM
# 悉尼科技大学研究人员对比微调 Transformer 与零样本 LLM 在 Reddit 虚假信息回应分类任务中的表现 悉尼科技大学的研究人员对微调 Transformer 模型(DistilBERT、RoBERTa)与零样本 LLM(Llama 系列、Claude、Gemini)在 Reddit 虚假信息回应分类任务中的性能进行了比较,发现微调后的 RoBERTa 达到了 0.62 的宏观 F1 分数,而最佳零样本模型仅为 0.50。研究表明,针对特定任务的微调优于更大规模的通用模型,在检测信念传播方面尤为突出,同时前沿模型中的安全对齐机制可能会对模型性能产生负面影响。
面向在线患者咨询的可操作分诊分类的小样本大语言模型
本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类,分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型(Claude Haiku 4.5,12次小样本提示)的macro-F1达到0.475,超过了有监督基线,但作者得出结论:LLMs可以支持分诊优先级排序和选择性人工审核,但不能自主部署。
Meta-Tool:小语言模型的高效少样本工具适配
独立研究表明,在 3B Llama 的工具使用中,227M 参数的超网络相比精心设计的少样本提示毫无增益,仅用 1/10 延迟即可达到 GPT-5 性能的 79.7%。
面向比较图的可靠LLM评估的提示扰动
提出了一种提示扰动框架,该框架生成扰动的提示变体,通过图级一致性检查过滤掉结构不一致的比较模式,然后应用标准排名方法产生更可靠的LLM排名。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。