从文本数据评估社会经济气候影响

arXiv cs.CL 2026/05/21 04:00 论文

摘要

本文回顾了利用自然语言处理和大语言模型从文本来源中提取气候灾害的社会经济影响数据的最新进展，指出了关键挑战，并提出了构建稳健数据集的建议。

arXiv:2605.20793v1 公告类型：新摘要：自然语言处理（NLP）和大语言模型（LLMs）的最新进展使得能够系统性地利用来自新闻、社交媒体和报告的大规模文本数据，创建包含洪水、干旱、风暴及多灾种事件等气候灾害的社会经济影响数据集。随着将文本作为数据用于影响评估的领域不断扩展，其方法复杂性也随之增加。然而，研究仍然零散，缺乏明确的指导方针来确定什么构成影响、处理时间和空间偏差，以及选择合适的建模和后处理策略。这种缺乏一致性的情况限制了研究的透明度和可比性。本文通过综合常见实践、描述使用文本作为数据方法分析社会经济影响数据的具体关键挑战，并提出应对这些挑战的建议，来填补这一空白。通过提供最佳实践指导，我们旨在支持构建稳健的文本衍生的社会经济影响数据集，从而更准确地为灾害风险管理和归因研究提供信息。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:35

# 从文本数据评估社会经济气候影响
来源：https://arxiv.org/abs/2605.20793
作者：Mariana Madruga de Brito (https://arxiv.org/search/cs?searchtype=author&query=de+Brito,+M+M), Brielen Madureira (https://arxiv.org/search/cs?searchtype=author&query=Madureira,+B), Taís Maria Nunes Carvalho (https://arxiv.org/search/cs?searchtype=author&query=Carvalho,+T+M+N), Damien Delforge (https://arxiv.org/search/cs?searchtype=author&query=Delforge,+D), Aglaé Jézéquel (https://arxiv.org/search/cs?searchtype=author&query=J%C3%A9z%C3%A9quel,+A), Murathan Kurfalı (https://arxiv.org/search/cs?searchtype=author&query=Kurfal%C4%B1,+M), Ni Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+N), Gabriele Messori (https://arxiv.org/search/cs?searchtype=author&query=Messori,+G), Joakim Nivre (https://arxiv.org/search/cs?searchtype=author&query=Nivre,+J), Barbara Pernici (https://arxiv.org/search/cs?searchtype=author&query=Pernici,+B), Niko Speybroeck (https://arxiv.org/search/cs?searchtype=author&query=Speybroeck,+N), Stefano Terzi (https://arxiv.org/search/cs?searchtype=author&query=Terzi,+S), Wim Thiery (https://arxiv.org/search/cs?searchtype=author&query=Thiery,+W), Bram Valkenborg (https://arxiv.org/search/cs?searchtype=author&query=Valkenborg,+B), Jingxian Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+J), Shorouq Zahra (https://arxiv.org/search/cs?searchtype=author&query=Zahra,+S), Jakob Zscheischler (https://arxiv.org/search/cs?searchtype=author&query=Zscheischler,+J), Jan Sodoge (https://arxiv.org/search/cs?searchtype=author&query=Sodoge,+J)

查看PDF (https://arxiv.org/pdf/2605.20793)

> **摘要：** 自然语言处理（NLP）和大语言模型（LLMs）的最新进展，使得系统性地利用来自新闻、社交媒体和报告的大规模文本数据成为可能，从而创建包含洪水、干旱、风暴以及多灾害事件等气候灾害社会经济影响的数据集。随着文本即数据方法在影响评估领域的扩展，其方法复杂性也随之增加。然而，现有研究仍然碎片化，缺乏关于如何定义“影响”、处理时空偏差以及选择适当的建模和后处理策略的明确指南。这种不一致性限制了研究的透明度和可比性。在此，我们通过综合常见实践、描述文本即数据方法在分析社会经济影响数据时面临的特定关键挑战，并提出解决这些挑战的建议，来弥合这一空白。通过提供最佳实践指南，我们旨在支持构建稳健的文本衍生社会经济影响数据集，从而更准确地为灾害风险管理和归因研究提供信息。

## 提交历史

来自：Brielen Madureira \[查看邮件 (https://arxiv.org/show-email/e55a8a4f/2605.20793)\] **\[v1\]** 2026年5月20日星期三 06:40:00 UTC（1,245 KB）

从文本数据评估社会经济气候影响

相似文章

社交媒体中因果关系提取的大型语言模型：灾害情报的验证框架

大语言模型在低资源语言人文学科研究中的机遇与挑战

大型语言模型能否革新调查研究？以灾害防备响应的实验为例

OpenAI 经济影响研究

ClimateChat-300K：用于理解气候传播中多元视角的多模态Facebook数据集

提交意见反馈