标签
研究人员开发了建筑安全态度框架(CSAF),并验证了一种基于LLM的分类器,用于从Reddit话语中测量建筑工人的安全态度。该分类器在超过10,000条帖子上与人类专家编码者达到高度一致(κ=0.90)。
# 悉尼科技大学研究人员对比微调 Transformer 与零样本 LLM 在 Reddit 虚假信息回应分类任务中的表现 悉尼科技大学的研究人员对微调 Transformer 模型(DistilBERT、RoBERTa)与零样本 LLM(Llama 系列、Claude、Gemini)在 Reddit 虚假信息回应分类任务中的性能进行了比较,发现微调后的 RoBERTa 达到了 0.62 的宏观 F1 分数,而最佳零样本模型仅为 0.50。研究表明,针对特定任务的微调优于更大规模的通用模型,在检测信念传播方面尤为突出,同时前沿模型中的安全对齐机制可能会对模型性能产生负面影响。
本文提出了一个验证框架,用于评估大型语言模型(LLM)在灾害期间从社交媒体帖子中提取因果关系的有效性。通过将LLM生成的结果与基于专家知识的参考图谱进行比较,评估其在识别因果关系方面的可靠性及潜在风险。
本文对利用大型语言模型(LLM)引导的半监督学习进行社交媒体危机数据分类进行了实证评估。研究表明,在低资源场景下,LG-CoTrain 的表现优于经典基线模型,并突显了将 LLM 知识迁移至更小、更易部署的模型以支持灾害响应的潜力。