ClimateChat-300K:用于理解气候传播中多元视角的多模态Facebook数据集
摘要
一个包含299,329条关于气候变化的公开Facebook帖子的大规模数据集,附带元数据和主题与参与度分析,旨在支持气候话语研究。
arXiv:2605.23326v1 Announce Type: new
Abstract: 我们提出ClimateChat-300K,这是一个大规模数据集,包含2020年5月至2024年5月通过CrowdTangle平台收集的299,329条关于气候变化的公开Facebook帖子。该数据集包含41个元数据特征,包括帖子内容、参与度指标和页面属性,覆盖来自全球超过26,000个页面的材料。每条帖子都包含丰富的上下文信息,如语言、时间戳、页面类别和互动次数,从而能够对围绕气候传播的公共话语进行综合分析。通过主题建模和情感分析,我们识别出十个主要主题,归为五个领域:政策、行动主义、合作、科学和保护。结果显示,情感基调、帖子格式和页面身份强烈影响受众参与度,其中视觉丰富且情感强烈的内容获得最高水平的互动。该数据集还展示了在线讨论如何因应国际气候峰会、COVID-19疫情等重大事件而演变。ClimateChat-300K为可重复和跨学科研究提供了开放资源,适用于两极分化、错误信息以及数字气候话语动态的研究。通过发布此数据集,我们旨在支持透明、数据驱动的研究,并促进更深入地理解公众对气候问题的参与如何随时间、地域和制度背景而发展。
查看缓存全文
缓存时间: 2026/05/25 09:01
# ClimateChat-300K:用于理解气候传播中多元视角的多模态Facebook数据集 来源:https://arxiv.org/abs/2605.23326 查看PDF(https://arxiv.org/pdf/2605.23326) > 摘要:我们推出了ClimateChat-300K,这是一个包含299,329条关于气候变化的Facebook公开帖子的大规模数据集,数据收集时间为2020年5月至2024年5月,通过CrowdTangle平台获取。该数据集包含41个元数据特征,包括帖子内容、参与度指标和页面属性,涵盖了来自全球超过26,000个页面的材料。每条帖子都包含丰富的上下文信息,如语言、时间戳、页面类别和互动次数,从而能够对围绕气候传播的公共话语进行全面分析。通过主题建模和情感分析,我们识别出十个主要主题,并将其归纳为五个领域:政策、行动主义、合作、科学与保护。研究结果显示,情感基调、帖子形式以及页面身份对受众参与度有显著影响,其中视觉丰富且情感强烈的内容获得的互动量最高。该数据集还展示了在线讨论如何因应国际气候峰会及COVID-19疫情期间等重大事件而演变。ClimateChat-300K为可重复的跨学科研究提供了开放资源,有助于研究极化现象、虚假信息以及数字气候话语的动态。通过发布这一数据集,我们旨在支持透明、数据驱动的研究,并帮助更深入地理解公众对气候议题的参与如何随时间、地理和机构背景而变化。 ## 提交历史 来自:Wajdi Zaghouani [查看邮件 (https://arxiv.org/show-email/fa9b3349/2605.23326)] **[v1]** 2026年5月22日(星期五)07:41:47 UTC(438 KB)
相似文章
Cohesion-6K:一个用于分析在线话语中社会凝聚力与冲突的阿拉伯语数据集
介绍Cohesion-6K,一个由人工和ChatGPT辅助标注的包含6000条阿拉伯语Facebook帖子的数据集,内容涉及以色列占领巴勒斯坦,涵盖从冲突到凝聚力的类别。分析显示,冲突导向的帖子获得的互动量是解决导向帖子的2到4倍。
从文本数据评估社会经济气候影响
本文回顾了利用自然语言处理和大语言模型从文本来源中提取气候灾害的社会经济影响数据的最新进展,指出了关键挑战,并提出了构建稳健数据集的建议。
SynopticBench:评估视觉语言模型生成未来天气预报讨论的能力
本文介绍了SynopticBench,这是一个包含130万份以上天气预报讨论及其对应气象图像的数据集;同时提出了SPACE,一个用于评估VLM生成天气预报质量的全新评估框架。
ArabDiscrim:一个关于种族主义与歧视的十年阿拉伯语Facebook语料库
ArabDiscrim是一个跨越十年的词汇资源与语料库,包含293K条关于种族主义和歧视的阿拉伯语Facebook帖子,并整合了互动信号、形态正则词族以及歧视轴,旨在支持面向公平性的阿拉伯语自然语言处理研究。
RESCAST-100K:面向跨领域住宅负荷与室内温度预测的综合数据集
介绍RESCAST-100K,一个用于跨领域住宅负荷与室内温度预测的大规模基准数据集,包含模拟与真实数据,支持迁移学习、域适应和零样本泛化的评估。