从文本数据评估社会经济气候影响
摘要
本文回顾了利用自然语言处理和大语言模型从文本来源中提取气候灾害的社会经济影响数据的最新进展,指出了关键挑战,并提出了构建稳健数据集的建议。
arXiv:2605.20793v1 公告类型:新
摘要:自然语言处理(NLP)和大语言模型(LLMs)的最新进展使得能够系统性地利用来自新闻、社交媒体和报告的大规模文本数据,创建包含洪水、干旱、风暴及多灾种事件等气候灾害的社会经济影响数据集。随着将文本作为数据用于影响评估的领域不断扩展,其方法复杂性也随之增加。然而,研究仍然零散,缺乏明确的指导方针来确定什么构成影响、处理时间和空间偏差,以及选择合适的建模和后处理策略。这种缺乏一致性的情况限制了研究的透明度和可比性。本文通过综合常见实践、描述使用文本作为数据方法分析社会经济影响数据的具体关键挑战,并提出应对这些挑战的建议,来填补这一空白。通过提供最佳实践指导,我们旨在支持构建稳健的文本衍生的社会经济影响数据集,从而更准确地为灾害风险管理和归因研究提供信息。
查看缓存全文
缓存时间: 2026/05/21 06:35
# 从文本数据评估社会经济气候影响 来源:https://arxiv.org/abs/2605.20793 作者:Mariana Madruga de Brito (https://arxiv.org/search/cs?searchtype=author&query=de+Brito,+M+M), Brielen Madureira (https://arxiv.org/search/cs?searchtype=author&query=Madureira,+B), Taís Maria Nunes Carvalho (https://arxiv.org/search/cs?searchtype=author&query=Carvalho,+T+M+N), Damien Delforge (https://arxiv.org/search/cs?searchtype=author&query=Delforge,+D), Aglaé Jézéquel (https://arxiv.org/search/cs?searchtype=author&query=J%C3%A9z%C3%A9quel,+A), Murathan Kurfalı (https://arxiv.org/search/cs?searchtype=author&query=Kurfal%C4%B1,+M), Ni Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+N), Gabriele Messori (https://arxiv.org/search/cs?searchtype=author&query=Messori,+G), Joakim Nivre (https://arxiv.org/search/cs?searchtype=author&query=Nivre,+J), Barbara Pernici (https://arxiv.org/search/cs?searchtype=author&query=Pernici,+B), Niko Speybroeck (https://arxiv.org/search/cs?searchtype=author&query=Speybroeck,+N), Stefano Terzi (https://arxiv.org/search/cs?searchtype=author&query=Terzi,+S), Wim Thiery (https://arxiv.org/search/cs?searchtype=author&query=Thiery,+W), Bram Valkenborg (https://arxiv.org/search/cs?searchtype=author&query=Valkenborg,+B), Jingxian Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+J), Shorouq Zahra (https://arxiv.org/search/cs?searchtype=author&query=Zahra,+S), Jakob Zscheischler (https://arxiv.org/search/cs?searchtype=author&query=Zscheischler,+J), Jan Sodoge (https://arxiv.org/search/cs?searchtype=author&query=Sodoge,+J) 查看PDF (https://arxiv.org/pdf/2605.20793) > **摘要:** 自然语言处理(NLP)和大语言模型(LLMs)的最新进展,使得系统性地利用来自新闻、社交媒体和报告的大规模文本数据成为可能,从而创建包含洪水、干旱、风暴以及多灾害事件等气候灾害社会经济影响的数据集。随着文本即数据方法在影响评估领域的扩展,其方法复杂性也随之增加。然而,现有研究仍然碎片化,缺乏关于如何定义“影响”、处理时空偏差以及选择适当的建模和后处理策略的明确指南。这种不一致性限制了研究的透明度和可比性。在此,我们通过综合常见实践、描述文本即数据方法在分析社会经济影响数据时面临的特定关键挑战,并提出解决这些挑战的建议,来弥合这一空白。通过提供最佳实践指南,我们旨在支持构建稳健的文本衍生社会经济影响数据集,从而更准确地为灾害风险管理和归因研究提供信息。 ## 提交历史 来自:Brielen Madureira \[查看邮件 (https://arxiv.org/show-email/e55a8a4f/2605.20793)\] **\[v1\]** 2026年5月20日星期三 06:40:00 UTC(1,245 KB)
相似文章
社交媒体中因果关系提取的大型语言模型:灾害情报的验证框架
本文提出了一个验证框架,用于评估大型语言模型(LLM)在灾害期间从社交媒体帖子中提取因果关系的有效性。通过将LLM生成的结果与基于专家知识的参考图谱进行比较,评估其在识别因果关系方面的可靠性及潜在风险。
大语言模型在低资源语言人文学科研究中的机遇与挑战
本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。
大型语言模型能否革新调查研究?以灾害防备响应的实验为例
本文提出一个五阶段框架,将大型语言模型整合到调查研究中,以应对回复率下降、样本偏差和欺诈性完成等问题。基于2024年米尔顿飓风调查数据,作者提出了一种理论知情的LLM(A-TLM),在缺失数据场景中优于经典插补方法,并通过基于事实的拒答机制展示了可控的幻觉风险。
OpenAI 经济影响研究
OpenAI 发起征集外部研究人员研究 GPT-3、ChatGPT 和 DALL-E 2 等大型语言模型的经济影响,发布研究议程并邀请博士级别的合作者研究 AI 部署对劳动力市场、不平等和政策的影响。
ClimateChat-300K:用于理解气候传播中多元视角的多模态Facebook数据集
一个包含299,329条关于气候变化的公开Facebook帖子的大规模数据集,附带元数据和主题与参与度分析,旨在支持气候话语研究。