ClimateChat-300K:用于理解气候传播中多元视角的多模态Facebook数据集

arXiv cs.CL 论文

摘要

一个包含299,329条关于气候变化的公开Facebook帖子的大规模数据集,附带元数据和主题与参与度分析,旨在支持气候话语研究。

arXiv:2605.23326v1 Announce Type: new Abstract: 我们提出ClimateChat-300K,这是一个大规模数据集,包含2020年5月至2024年5月通过CrowdTangle平台收集的299,329条关于气候变化的公开Facebook帖子。该数据集包含41个元数据特征,包括帖子内容、参与度指标和页面属性,覆盖来自全球超过26,000个页面的材料。每条帖子都包含丰富的上下文信息,如语言、时间戳、页面类别和互动次数,从而能够对围绕气候传播的公共话语进行综合分析。通过主题建模和情感分析,我们识别出十个主要主题,归为五个领域:政策、行动主义、合作、科学和保护。结果显示,情感基调、帖子格式和页面身份强烈影响受众参与度,其中视觉丰富且情感强烈的内容获得最高水平的互动。该数据集还展示了在线讨论如何因应国际气候峰会、COVID-19疫情等重大事件而演变。ClimateChat-300K为可重复和跨学科研究提供了开放资源,适用于两极分化、错误信息以及数字气候话语动态的研究。通过发布此数据集,我们旨在支持透明、数据驱动的研究,并促进更深入地理解公众对气候问题的参与如何随时间、地域和制度背景而发展。
查看原文
查看缓存全文

缓存时间: 2026/05/25 09:01

# ClimateChat-300K:用于理解气候传播中多元视角的多模态Facebook数据集
来源:https://arxiv.org/abs/2605.23326
查看PDF(https://arxiv.org/pdf/2605.23326)

> 摘要:我们推出了ClimateChat-300K,这是一个包含299,329条关于气候变化的Facebook公开帖子的大规模数据集,数据收集时间为2020年5月至2024年5月,通过CrowdTangle平台获取。该数据集包含41个元数据特征,包括帖子内容、参与度指标和页面属性,涵盖了来自全球超过26,000个页面的材料。每条帖子都包含丰富的上下文信息,如语言、时间戳、页面类别和互动次数,从而能够对围绕气候传播的公共话语进行全面分析。通过主题建模和情感分析,我们识别出十个主要主题,并将其归纳为五个领域:政策、行动主义、合作、科学与保护。研究结果显示,情感基调、帖子形式以及页面身份对受众参与度有显著影响,其中视觉丰富且情感强烈的内容获得的互动量最高。该数据集还展示了在线讨论如何因应国际气候峰会及COVID-19疫情期间等重大事件而演变。ClimateChat-300K为可重复的跨学科研究提供了开放资源,有助于研究极化现象、虚假信息以及数字气候话语的动态。通过发布这一数据集,我们旨在支持透明、数据驱动的研究,并帮助更深入地理解公众对气候议题的参与如何随时间、地理和机构背景而变化。

## 提交历史

来自:Wajdi Zaghouani [查看邮件 (https://arxiv.org/show-email/fa9b3349/2605.23326)] **[v1]** 2026年5月22日(星期五)07:41:47 UTC(438 KB)

相似文章

从文本数据评估社会经济气候影响

arXiv cs.CL

本文回顾了利用自然语言处理和大语言模型从文本来源中提取气候灾害的社会经济影响数据的最新进展,指出了关键挑战,并提出了构建稳健数据集的建议。