基于大型语言模型引导的半监督方法用于社交媒体危机数据分类

arXiv cs.AI 论文

摘要

本文对利用大型语言模型(LLM)引导的半监督学习进行社交媒体危机数据分类进行了实证评估。研究表明,在低资源场景下,LG-CoTrain 的表现优于经典基线模型,并突显了将 LLM 知识迁移至更小、更易部署的模型以支持灾害响应的潜力。

arXiv:2605.08448v1 公告类型:new 摘要:半监督学习方法已被探索用于提升灾害管理背景下的社交媒体数据分析能力。在这项工作中,我们首次对用于危机相关推文分类的大型语言模型(LLM)引导的半监督学习进行了实证评估。我们将两种近期基于 LLM 辅助的半监督方法——VerifyMatch 和 LLM 引导的协同训练(LG-CoTrain)——与已建立的半监督基线方法进行了比较。我们的结果显示,在每类仅有 5、10 和 25 个标注样本的低资源设置下,LG-CoTrain 显著优于经典的半监督方法,并在各类事件中取得了最高的平均宏观 F1 分数。VerifyMatch 取得了具有竞争力的性能,同时表现出良好的校准特性。随着标注样本数量的增加,性能差距缩小,自训练(Self Training)成为一种强有力的基线。我们进一步观察到,在某些情况下,紧凑的半监督模型可以超越在零样本设置下运行的超大型 LLM。这一发现突显了通过 LLM 引导的半监督学习将知识从 LLM 迁移到更小、更具部署可行性的模型的潜力,为现实世界中的灾害响应应用提供了一条切实可行的路径。我们的项目 GitHub 仓库在此。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:14

# 1 引言
来源: https://arxiv.org/html/2605.08448
\iscramset

WiPe 论文 2026=社交媒体与危机沟通:叙事、信号和情感,标题=基于大语言模型引导的半监督方法用于社交媒体危机数据分类,短标题=用于危机的大语言模型引导半监督,作者= 简称=Ativo 等人††致谢:这些作者对本工作贡献同等\., 隶属机构= 计算机科学系 加州州立大学东湾分校 加州海沃德市 94542 美国 [email protected] (https://arxiv.org/html/2605.08448v1/mailto:[email protected]), , 作者= 简称=Balasubramaniyam, 全称=Bharaneeshwar Balasubramaniyam11脚注标记:1, 隶属机构= 计算机科学系 堪萨斯州立大学 [email protected] (https://arxiv.org/html/2605.08448v1/mailto:[email protected]), , 作者= 简称=Tran, 全称=Anh Tran11脚注标记:1, 隶属机构= 独立研究员 [email protected] (https://arxiv.org/html/2605.08448v1/mailto:[email protected]), , 作者= 简称=Gupta, 全称=Khushboo Gupta, 隶属机构= 计算机科学系 伊利诺伊大学芝加哥分校 [email protected] (https://arxiv.org/html/2605.08448v1/mailto:[email protected]), , 作者= 简称=Li, 全称=Hongmin Li, 隶属机构= 计算机科学系 加州州立大学东湾分校 加州海沃德市 94542 美国 [email protected] (https://arxiv.org/html/2605.08448v1/mailto:[email protected]), , 作者= 简称=D. Caragea, 全称=Doina Caragea, 隶属机构= 计算机科学系 堪萨斯州立大学 [email protected] (https://arxiv.org/html/2605.08448v1/mailto:[email protected]), , 作者= 简称=C. Caragea, 全称=Cornelia Caragea, 隶属机构= 计算机科学系 伊利诺伊大学芝加哥分校 [email protected] (https://arxiv.org/html/2605.08448v1/mailto:[email protected]), ,

###### 摘要

半监督学习方法已被视为增强灾害管理背景下社交媒体数据分析的一种手段。在本研究中,我们首次对用于危机相关推文分类的大语言模型(LLM)引导半监督学习进行了实证评估。我们将两种最新的 LLM 辅助半监督方法 VerifyMatch 和 LLM 引导的协同训练(LG-CoTrain)与传统的半监督基线方法进行了比较。我们的结果表明,在每类仅有 5、10 和 25 个标注示例的低资源设置下,LG-CoTrain 显著优于经典的半监督方法,在各个事件中实现了最高的平均 Macro F1 分数。VerifyMatch 实现了具有竞争力的性能,同时也展现出强大的校准特性。随着标注示例数量的增加,性能差距缩小,Self Training(自训练)成为一种强有力的基线。我们进一步观察到,紧凑的半监督模型在某些情况下可以胜过在零样本(zero-shot)设置下运行的超大 LLM。这一发现凸显了通过 LLM 引导的半监督学习将知识从 LLM 转移到更小、更易部署模型中的潜力,为现实世界的灾害响应应用提供了一条实际路径。我们在 Github 上的项目仓库位于这里 (https://github.com/deeplearning-lab-csueb/LLM-guided-SSL-Crisis-Tweets-Classification/tree/main)。

###### 关键词:

半监督学习,大语言模型,社交媒体危机数据,模型校准,灾害响应

在紧急事件中,个人越来越多地转向社交媒体平台,如 X(前身为 Twitter)、Reddit 和 Instagram,以获取信息和分享更新。从沟通的角度来看,这些平台发挥双向功能:当局向公众发布关键的灾害响应信息(例如,警告或疏散命令),而公众也提供一手报告和情况更新,这些数据可被挖掘以增强态势感知[reuter2018_survey,DBLP:phd/dnb/Reuter22a,jeroen2021]。因此,研究人员和从业者都认识到此类用户生成内容对于危机响应的巨大价值。然而,由于信息过载——其特征是高数据量、高速度以及不同程度的真实性——有效地将社交媒体流集成到实时操作中仍然具有挑战性[purohit2025engagemobilizeunderstandingevolving]。

为应对这些挑战,过去十年的大量研究集中在应用机器学习(ML)和自然语言处理(NLP)技术,自动将社交媒体数据分类为可操作的类别,例如基础设施损坏或救援请求。针对这些分类任务,已提出了各种 ML 模型,包括统计学习方法和有监督的深度模型[starbirdPHV2010,ImranECDM13,CarageaSSNT14,NguyenAJSIM16,BurelAlani2018,DBLP:conf/iscram/KerstenKWK19,DBLP:journals/ipm/GhafarianY20]。然而,有监督模型通常需要大量高质量的人工标注数据才能实现强大的性能,而在时间敏感的灾害响应背景下,这类数据往往稀缺。

为了缓解这一局限性,研究人员探索了领域适应、迁移学习和半监督学习方法。领域适应方法利用先前灾害事件中的标注数据,以减轻新发事件中标签稀缺的问题[LiJCCM2017,imran2028domainadaptation]。相比之下,半监督学习方法旨在通过伪标签策略,将少量标注数据与大量未标注数据结合,从而训练有效的模型。在典型的教师-学生半监督学习框架中,在有限标注数据上训练的教师模型首先生成未标注实例的伪标签,随后这些伪标签示例被用于训练学生模型[Li-iscram-21,zou2023crisismatch,gupta_2025_calibrated]。总体而言,半监督方法的性能在很大程度上取决于伪标签的质量。因此,半监督学习中的一个核心研究问题是如何有效地利用未标注数据生成高质量的伪标签,以提高下游模型的性能。

随着大语言模型(LLMs)的快速进步,最近的研究探讨了利用 LLMs 来改进基于较小预训练语言模型(如 BERT)构建的半监督模型的伪标签生成[DBLP:journals/corr/abs-1810-04805-bert],特别是在文本分类任务中[park_2024_verifymatch,rahman_caragea_2025_llm]。在社交媒体危机数据分析的背景下,涌现出大量工作在零样本(即,不使用任务特定标注示例直接使用 LLM 进行预测)、少样本(即,在提示中向 LLM 提供少量标注示例)和微调(即,在任务特定标注数据上更新小型 LLM 模型参数)模式下使用 LLMs 来识别灾害管理相关的有用社交媒体内容[imran2024-openai,Soudabeh-Caragea-2024,mcdaniel2024-zeroshot-crisisbench,yin2025-crisisSense,shrestha_crisis_tweets_2025-thesis,DBLP:conf/cogsima/SalfingerS24,lei2025harnessing,guo_2025_asonam]。然而,据我们所知,此前没有工作在危机领域中研究由 LLMs 引导的半监督模型。

为此,我们研究了两个增强型 BERT 基半监督模型,利用 LLM 生成的伪标签进行社交媒体危机分类:(1) VerifyMatch[park_2024_verifymatch],最初是为自然语言推理(NLI)提出的;(2) LLM 引导的协同训练(LG-CoTrain)[rahman_caragea_2025_llm],旨在用于通用文本分类。遵循 [gupta_2025_calibrated] 的实验协议,该协议在来自 HumAID 数据集[alam_2021_humaid] 的 10 个灾害事件上评估了几种半监督方法,我们在相同的基准上对使用 GPT-4o 伪标签增强的 VerifyMatch 和 LG-CoTrain 进行了实验。

具体而言,我们使用 Macro-F1 分数以及期望校准误差(ECE)来评估 VerifyMatch 和 LG-CoTrain 方法的性能,并将结果与 [gupta_2025_calibrated] 中现有的基线结果进行比较,从而对社交媒体危机数据分类的半监督学习算法形成更全面的研究所。总而言之,我们的主要贡献如下:

- • 我们使用由 GPT-4o 生成的零样本伪标签,在来自 HumAID 数据集的 10 个灾害事件上评估了两种半监督方法 VerifyMatch 和 LG-CoTrain,该数据集是一个包含与损害、受伤人员、请求或紧急需求等人道主义类别相关的灾害推文的基准。我们进一步将这些模型与 [gupta_2025_calibrated] 中考察的所有半监督方法进行了比较。
- • 我们的实验结果表明,在低资源设置下(例如,每类别 5 或 10 个标注示例),LG-CoTrain 显著优于其他方法。此外,它表现出良好的模型校准性。然而,随着标注数据量的增加(例如,每类别 50 个标注示例),LG-CoTrain 与其他半监督模型之间的性能差距缩小,Self-training(自训练)成为一种难以超越的竞争性基线。
- • 基于较小预训练语言模型的半监督模型仅在一部分灾害事件中胜过零样本 GPT-4o。这可能是因为 HumAID 基准中未标注数据有限且可能缺乏代表性,包括采样的未标注集中缺失某些类别的示例——这一问题在现实世界场景中也可能出现。更大且更具代表性的未标注数据集可能有助于缓解这些局限性。

尽管如此,所有这些发现都凸显了通过 LLM 引导的半监督学习将知识从 LLM 转移到更小、更易部署模型中的潜力,为现实世界的灾害响应应用提供了一条实际路径。

## 2 相关工作

机器学习中关于半监督学习(SSL)的文献非常丰富。在本节中,我们首先概述 SSL 方法,然后回顾将 SSL 和大语言模型(LLMs)应用于社交媒体灾害数据分析的先前工作。

SSL 概述。针对文本分类已提出了广泛的 SSL 方法,始于 Self-Training 和伪标签的原始概念[scudder1965probability]。在自训练中,首先使用有限的标注数据训练一个教师模型,然后使用该模型为未标注实例生成伪标签。这些伪标签示例随后被纳入学生模型的训练过程中,通常以迭代方式进行。该框架中的两个关键设计选择是 (1) 如何选择包含在训练中的伪标签示例,以及 (2) 是使用硬标签(每个示例最可能的类别)还是软标签(预测类别概率)。纳入低置信度的伪标签可能导致误差传播并降低学生模型的性能。

已提出各种伪标签选择策略。例如,FixMatch[sohn2020fixmatch] 及相关自训练方法采用固定的置信度阈值来过滤伪标签,而不确定性感知自训练(UST)[mukherjee2020uncertainty] 采用基于概率理论的更复杂的不确定性估计技术。然而,基于阈值的过滤可能会限制学生模型访问潜在的具有信息量的未标注数据。为缓解这一局限性,引入了诸如 MixMatch[berthelot2019mixmatch] 和 SoftMatch[chen2023softmatchaddressingquantityqualitytradeoff] 等方法。SoftMatch 保留所有伪标签样本,但在训练过程中为低置信度实例分配较低的权重,从而平衡数据数量和标签质量。MixMatch 同样利用软伪标签,并进一步纳入 MixUp[zhang2017mixup],该方法插值伪标签和人工标注示例,以生成更平滑且可能更高质量的训练信号。

基于 AUM 的自训练(AUM-ST)[sosea2022leveraging] 采取不同的视角,通过使用边际面积(Area Under the Margin, AUM)跟踪训练动态来过滤低质量的伪标签示例。基于这一思想,基于 AUM 的自训练 MixUp(AUM-ST-Mixup)[gupta_2025_calibrated] 在 AUM-ST 之上集成了 MixUp 和额外的置信度跟踪机制,以进一步增强伪标签的可靠性。基于置信度的自训练 MixUp(Conf-ST-Mixup)[gupta_2025_calibrated] 通过将预测置信度定义为前两个类别之间的概率差来增强伪标签生成,其中较大的差距表示较高的置信度,使模型能够区分易学(可靠)与难学(模糊)样本。它在标注、高置信度和低置信度伪标签数据上应用 mixup 以正则化训练,减少误差传播,并促进更平滑的决策边界。

尽管有这些改进,依赖单一模型生成伪标签的方法仍然容易强化错误的高置信度预测,特别是在训练早期阶段[rahman_caragea_2025_llm]。为缓解这一问题,VerifyMatch[park_2024_verifymatch] 将 LLM 生成的伪标签与验证器模型结合,实现伪标签质量的交叉验证。结合 MixUp,VerifyMatch 在低资源设置下实现了具有竞争力的性能。最后,LLM 引导的协同训练(LG-CoTrain)[rahman_caragea_2025_llm] 将 LLM 生成的伪标签集成到双模型协同训练框架中,其中两个模型在结合 LLM 指导的同时相互迭代学习。与基于 MixUp 的方法不同,LG-CoTrain 保留所有伪标签数据而不进行修改。LG-CoTrain 优于零样本 Phi-3 和其他 SSL 方法,并在五个文本分类基准数据集的四个上实现了最先进的性能。

用于社交媒体危机数据分析的 SSL。几项研究已将 SSL 技术应用于社交媒体危机数据分析。例如,[alam2018graph] 提出了一种基于图的半监督 CNN 模型,用于处理来自两个灾害事件的 Twitter 数据。[Li-iscram-21] 将使用 BERT 和 CNN 模型的自训练应用于 CrisisLexT6 和 CrisisLexT26 数据集[OlteanuCDV14,Olteanu2015],这些数据集包含来自各种灾害事件的推文。CrisisLexT6 标注了推文是否与灾害相关,而 CrisisLexT26 包括与 HumAID 数据集中类似的粗粒度和细粒度人道主义标签。[sirbu2022multimodal] 通过结合软标签扩展了 FixMatch,用于 CrisisMMD 数据集[crisismmd_2018_icwsm] 上的多模态灾害推文分类(文本和图像)。[zou2023crisismatch] 提出了 CrisisMatch,其区别在于在 HumAID 数据集上进行文本分类时,使用硬伪标签进行熵最大化,而不是进行锐化。与此同时,[zou2023decrisismb] 提出了一种新颖的方法,使用记忆库——DeCrisisMB[zou2023decrisismb]——来解决 SSL 中的偏差问题,即在高不平衡数据集(如危机相关推文分类)中为更频繁出现的实例分配不成比例的伪标签。

最近,[gupta_2025_calibrated] 提出了基于置信度和 AUM 的 MixUp 与自训练(AUM-ST-MixUp),并进行了系统评估

相似文章