新闻事件的过程:关于灾害的基于文本的数据收集的自底向上和自顶向下方法的比较

arXiv cs.CL 论文

摘要

本文比较了从新闻文章中收集灾害文本数据的自顶向下和自底向上方法,并以德国关于山体滑坡的新闻作为案例研究。

arXiv:2607.00849v1 公告类型:新 摘要:新闻文章是有关灾害影响和适应的重要信息来源。社会-环境研究中的一个关键方法论挑战是如何选择代表性的数据样本。有两种常见方法:借助现有的灾害清单自顶向下查询新闻数据库,或使用NLP方法基于时间和空间特征自底向上聚类新闻文本。我们使用关于全球山体滑坡的德国新闻数据集,比较了这些方法,并讨论了事件覆盖的差异。这种研究设计决策会影响最终的新闻样本,从而影响其在媒体覆盖不平等、灾害监测和清单丰富化研究中的应用。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:38

# 新闻事件的历程:自下而上与自上而下收集灾害文本数据的比较
来源:https://arxiv.org/html/2607.00849
Brielen Madureira¹·², Andreas Niekler¹·³, Mariana Madruga de Brito²·¹

¹莱比锡大学莱比锡实验室 – 气候话语,德国 ²亥姆霍兹环境研究中心,德国 ³莱比锡大学计算人文学科,德国 通信作者:brielen\.madureira@uni\-leizig\.de (https://arxiv.org/html/2607.00849v1/mailto:[email protected])

###### 摘要

新闻文章是了解灾害影响与适应措施的重要信息来源。在社会环境研究中,一个关键的方法论挑战是如何选择具有代表性的数据样本。常见的方法有两种:借助现有灾害清单,自上而下地查询新闻数据库;或者利用自然语言处理方法,基于时间和空间特征,自下而上地对新闻文本进行聚类。我们使用一组关于全球山体滑坡的德语新闻数据集,比较了这两种方法,并讨论了它们在事件覆盖范围上的差异。这种研究设计上的选择会影响最终的新闻样本,进而影响其在媒体覆盖不平等研究、灾害监测和清单完善中的应用。

新闻事件的历程:自下而上与自上而下收集灾害文本数据的比较

Brielen Madureira¹·², Andreas Niekler¹·³, Mariana Madruga de Brito²·¹¹莱比锡大学莱比锡实验室 – 气候话语,德国 ²亥姆霍兹环境研究中心,德国 ³莱比锡大学计算人文学科,德国 通信作者:brielen\.madureira@uni\-leizig\.de (https://arxiv.org/html/2607.00849v1/mailto:[email protected])

## 1引言

理解人类如何经历和应对灾害,需要环境科学与(计算)社会科学之间的跨学科合作(Meehl 等,2000 (https://arxiv.org/html/2607.00849#bib.bib18);Albeverio 等,2006 (https://arxiv.org/html/2607.00849#bib.bib20);McPhillips 等,2018 (https://arxiv.org/html/2607.00849#bib.bib19);de Brito and Sodoge,2023 (https://arxiv.org/html/2607.00849#bib.bib23))。在这一交叉领域,涌现出一些基本问题,例如气候灾害对社会的影响、适应措施与风险降低之间的关系,以及不同社会群体在暴露程度和影响上的不平等。最终的研究成果可以为灾害救助资金的分配(Chapman 等,2022 (https://arxiv.org/html/2607.00849#bib.bib21))和民主决策(Soroka 等,2012 (https://arxiv.org/html/2607.00849#bib.bib22))提供信息支持。

综合这些知识需要收集来自多种来源的信息,从基于传感器的测量到数字文档。当涉及文本数据时,自然语言处理领域便加入这一跨学科讨论,提供诸如分类、信息提取、地理解析以及在语言使用中建模复杂社会结构等方法(de Brito 等,2026 (https://arxiv.org/html/2607.00849#bib.bib15))。

参见图注图1:两种检测新闻中灾害提及的方法的示意比较。一个基本挑战是识别灾害(如山体滑坡、野火和洪水)的时间、地点和影响。许多研究(见第2节 (https://arxiv.org/html/2607.00849#S2))使用全球灾害清单,如 EM-DAT(Delforge 等,2025 (https://arxiv.org/html/2607.00849#bib.bib1)),该清单基于高质量、人工整理的数据,但同时也存在不完整和不可避免的偏差。因此,当科学界过度依赖单一来源作为真实基准时,所得到的集体知识可能会过度拟合该数据库的特征,而非实际现象。

为缓解这一问题,新闻数据库可以通过两种方法(图1 (https://arxiv.org/html/2607.00849#S1.F1))提供额外的事件信息:**自上而下**方法利用外部灾害清单中已知的事件来查询新闻数据库以获取目标内容(例如 Cai 等,2025 (https://arxiv.org/html/2607.00849#bib.bib6)),而**自下而上**方法则识别、定位并将新闻聚类为分段事件,然后可以将其与外部清单进行**对齐**或验证(例如 Valkenborg 等,2026 (https://arxiv.org/html/2607.00849#bib.bib2))。但这两种方法都不是万无一失的:第一种方法忽略了未在清单中记录的事件,而第二种方法则忽略了新闻数据库中媒体认为不具有新闻价值的事件。

本文更深入地探讨了这一问题。我们比较了在一个关于山体滑坡的德语新闻数据集中,通过自上而下和自下而上方法识别出的新闻事件,并讨论了它们的优缺点。这种基于经验观察的方法论见解,可以加强 NLP 支持的社会环境研究。

## 2相关工作

国际灾害数据库(EM-DAT, Delforge 等,2025 (https://arxiv.org/html/2607.00849#bib.bib1))是一个广泛使用的全球灾害清单,包含超过 2.7 万个事件,常被视为真实基准。然而,其覆盖范围受到纳入标准和为所有国家收集详细信息的难度限制。即使是已记录的事件也存在数据缺失(Jones 等,2022 (https://arxiv.org/html/2607.00849#bib.bib8))。尽管存在这些局限性,仍有数百项实证研究依赖它(Jones 等,2023 (https://arxiv.org/html/2607.00849#bib.bib7))。

与此同时,新闻文章长期以来被视为关于灾害的信息来源,用于创建或丰富清单(Guzzetti 等,1994 (https://arxiv.org/html/2607.00849#bib.bib9);Llasat 等,2009 (https://arxiv.org/html/2607.00849#bib.bib10);Taylor 等,2015 (https://arxiv.org/html/2607.00849#bib.bib3);Alencar 等,2024 (https://arxiv.org/html/2607.00849#bib.bib5);Sodoge 等,2024 (https://arxiv.org/html/2607.00849#bib.bib11);Avcıoğlu 等,2025 (https://arxiv.org/html/2607.00849#bib.bib4)等),用于近乎实时地监测灾害事件(Tanev 等,2008 (https://arxiv.org/html/2607.00849#bib.bib24))并研究媒体对它们的关注度(Yan and Bissell,2015 (https://arxiv.org/html/2607.00849#bib.bib17);Kong and Purves,2026 (https://arxiv.org/html/2607.00849#bib.bib16))。从大规模文本数据中得出的灾害清单和影响信息需要仔细验证(de Brito 等,2026 (https://arxiv.org/html/2607.00849#bib.bib15))。例如,观察结果可以与 EM-DAT 条目进行对齐以实现校准(Li 等,2025 (https://arxiv.org/html/2607.00849#bib.bib13);Dahr 等,2026 (https://arxiv.org/html/2607.00849#bib.bib12);Valkenborg 等,2026 (https://arxiv.org/html/2607.00849#bib.bib2))。

## 3数据与事件匹配

我们使用了一个数据集,包含近 5.5 万篇关于全球山体滑坡的德语新闻文章,由 Madureira 等人(2026 (https://arxiv.org/html/2607.00849#bib.bib14))构建。该研究使用与山体滑坡相关的关键词查询了 wiso-net 新闻数据库(时间段为 2000 年至 2024 年),识别了相关文章,并借助大语言模型在国家层面进行了地理解析。然后,通过**自下而上**方法识别了**新闻事件**。新闻事件被定义为一组连续新闻文章,均提及同一国家的山体滑坡,起始于有至少一篇观察记录的第一天,并在至少 θ=5 个连续无报道天数之前结束¹。

¹此参数可变,但我们为保持一致性而保留。

我们的分析基于将该研究中的自下而上新闻事件与 EM-DAT 中的自上而下事件进行匹配。为此,我们从 EM-DAT 中提取了 138 个国家的 2,014 个山体滑坡事件(主要或相关类型)的列表,其中包含事件的起始日期、国家和地点等信息。图 5 和图 6(附录)展示了自下而上事件和自上而下 EM-DAT 条目在时间上的分布情况。

#### 自下而上方法

通过基于地理定位新闻文章的时间序列分割,Madureira 等人(2026 (https://arxiv.org/html/2607.00849#bib.bib14))为 152 个国家识别了 4,567 个新闻事件(方法细节见该出版物)。对于每个新闻事件,提供的数据文件包含元数据,如起始日期、持续天数以及相关的新闻文章。为进行事件匹配,我们考虑如果一个新闻事件与一个 EM-DAT 条目在时间上对齐,即条目的起始日期接近该新闻事件的开始日期(从 Δb 天前到 Δa 天后),如图 2(顶部)所示。

参见图注图2:事件匹配过程的示意图。

#### 自上而下方法

对于每个 EM-DAT 条目,事件匹配通过查询新闻数据库来完成,查询时间范围在条目起始日期前后(即从 Δb 天前到 Δa 天后),搜索关于该国家的新闻。如果检索到至少一篇新闻文章,则认为该 EM-DAT 事件与一个新闻事件在时间上重合,如图 2 所示。我们没有设置固定的检索周期,而是允许新闻事件具有不同的持续时间,遵循与自下而上方法相同的逻辑:新闻事件从 [Δb, Δa] 范围内有新闻文章的第一天开始,并在该国家连续无观察新闻达到 θ 天后结束。

为了选择本研究中的 Δ 值,我们将 EM-DAT 中的起始日期视为正确,并承认某些事件可能需要几天时间才能出现在国际新闻中。因此,对于自上而下方法,我们设置 Δb=1 且 Δa=5,这意味着查询的新闻必须在已知起始日期后的 5 天内开始。之前的 1 天应考虑到潜在错误和早期预警。相反,对于自下而上方法,我们设置 Δb=5 且 Δa=1,这意味着如果一个事件已经在新闻中出现,其起始日期不能晚于第一篇新闻(1 天容忍度),但可能比第一篇新闻早几天。未来的研究可以探讨使用其他参数的影响。

## 4分析

我们首先比较了两种事件匹配策略的结果,通过量化 (i) 有多少自下而上的新闻事件与 EM-DAT 条目在时间上对齐,以及 (ii) 有多少 EM-DAT 条目通过查询在时间上与新闻事件匹配。如表 1 所示,自下而上方法识别的新闻事件数量是 EM-DAT 中条目数量的两倍以上。然而,只有不到 17% 的新闻事件与 EM-DAT 条目在时间上对齐。相比之下,自上而下查询成功地为将近 43% 的 EM-DAT 条目找到了时间上重合的新闻事件。

对齐和查询过程并非一一对应。一方面,具有不同起始日期的 EM-DAT 条目可能会在同一新闻事件的不同时间点查询到该事件(尤其是持续时间较长的新闻事件)。另一方面,自下而上的新闻事件可能与多个起始日期接近的 EM-DAT 条目对齐。这种 EM-DAT 条目与新闻事件之间的部分匹配或多重匹配需要进一步的消歧步骤。

图 3 展示了混淆矩阵,显示了每种事件源中对齐事件和查询事件之间的重叠。851 次成功查询覆盖了 779 个唯一的新闻事件。其中有 89 次查询匹配到了处于中期阶段的新闻事件,60 个新闻事件被多个 EM-DAT 条目查询到。这些情况需要后续处理决策:是自下而上方法中两个不同的新闻主题被不适当地合并了(例如因为它们在时间上重叠),还是事件匹配仅仅在内容上是虚假的。即使在自上而下方法中,这种推理也需要自下而上的信息来了解底层新闻事件何时开始和结束。

图 3 还显示,737 个对齐的自下而上事件覆盖了 762 个 EM-DAT 条目(其中一个被覆盖两次)。26 个新闻事件与多个 EM-DAT 条目对齐,只有一个新闻事件被对齐但未被查询检测到(因为查询捕获了紧邻的前一个新闻事件)。同样,需要后续处理决策来确定哪个 EM-DAT 条目正确反映了新闻事件的内容。

| 自下而上 | 新闻事件 | 4,567 |
|----------|----------|-------|
| 对齐至 EM-DAT | 737 (16.1%) |
| 自上而下 | EM-DAT 事件 | 2,014 |
| 在新闻中查询到 | 851 (42.2%) |

表 1:自下而上新闻事件和自上而下 EM-DAT 条目的数量,以及时间上匹配的事件比例。

参见图注

参见图注

图 3:混淆矩阵,显示两个来源中对齐和/或查询的事件数量。

核心发现是,两种方法在时间上共同匹配了 762 个 EM-DAT 条目到 736 个新闻事件。57.7% 的 EM-DAT 事件查询结果为空,意味着在其起始日期附近没有相关新闻。同样,82.9% 的自下而上新闻事件未与任何 EM-DAT 条目对齐。这些结果表明,一方面,EM-DAT 包含了一些在德语新闻中无法检测到的条目;另一方面,媒体可能形成未在 EM-DAT 中记录的新闻事件。如果只使用自上而下查询,许多新闻事件会被遗漏,而仅使用自下而上方法则会忽略超过一半的未出现在德语媒体中的全球已知山体滑坡事件(如该数据样本所体现的)。

尽管对齐可用于校准自下而上的新闻事件,但在实践中,选择使用哪个新闻样本取决于查询到的 EM-DAT 条目还是所有自下而上的新闻事件。这种研究设计选择会影响国家层面的分析。图 4 显示了每种方法在观测国家的检测事件数量。附录中的图 7、图 8 和图 9 展示了每种方法的空间覆盖范围和空白区域。自下而上的方法通常在每个国家检测到比成功查询更多的新闻事件,导致样本分布出现明显差异。例如,54.3% 的自下而上新闻事件分配给了全球南方国家,而查询到的新闻事件中这一比例为 81.4%;47.7% 的自下而上新闻事件涉及高收入国家,而查询到的新闻事件中这一比例为 20.6%;前者中 35.8% 的事件发生在欧洲,而后者的比例为 9.7%(详见附录中的表格)。

参见图注图4:按国家划分的检测新闻事件数量。

## 5讨论

仅从数字结果来看,自下而上的新闻事件似乎更具优势,因为其数量超过了查询到的新闻事件,并且还可以帮助进行近乎实时的监测。但需要谨慎对待:新闻事件并不总是反映与灾害清单相关的新真实世界事件。来自 NLP 流程的误报会向样本中引入噪声,并可能形成虚假的新闻事件。此外,许多新闻事件将一个国家的山体滑坡话题带入公众视野,但并未报道近期或正在发生的事件。基于对 150 多个新闻事件的初步人工核查,我们识别出几种常见的自下而上新闻事件类型:

- • 具体的 in p

相似文章

从文本数据评估社会经济气候影响

arXiv cs.CL

本文回顾了利用自然语言处理和大语言模型从文本来源中提取气候灾害的社会经济影响数据的最新进展,指出了关键挑战,并提出了构建稳健数据集的建议。

移民之声与地方新闻:弥合社区需求与媒体内容差距的洞察

arXiv cs.CL

# 弥合社区需求与媒体内容差距的洞察 来源:[https://arxiv.org/html/2604.16651](https://arxiv.org/html/2604.16651) ## 移民之声与地方新闻:弥合社区需求与媒体内容差距的洞察 作者:Paula Dolores Rescala [paula\.rescala@epfl\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),EPFL 瑞士 Victor Bros [vbros@idiap\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),Idiap Research Institute 及 EPFL 瑞士 与 Daniel Gatica