NTS-CoT: 使用思维链推理减轻基于LLM的新闻时间线摘要中的幻觉

arXiv cs.CL 2026/06/12 04:00 论文

hallucination-mitigation chain-of-thought timeline-summarization llm news-summarization nlp reasoning

摘要

本文提出NTS-CoT，一种使用思维链推理来减轻基于LLM的新闻时间线摘要中幻觉的新框架。它引入了三个模块——Element-CoT、Date Selection和Causal-CoT——以提高忠实度并减少遗漏，在三个基准测试上优于最先进的基线模型。

arXiv:2606.13171v1 公告类型：新摘要：在线新闻的快速更新使得跟踪事件发展变得具有挑战性，凸显了时间线摘要（TLS）的需求。幻觉，即LLM生成的内容偏离源新闻，仍然是基于LLM的时间线摘要中的一个关键问题，并且现有研究对此尚未深入探讨。为了弥补这一差距，我们识别了两种主要的幻觉类型：新闻摘要中的不忠实内容和日期事件摘要中的信息遗漏。然后，我们提出NTS-CoT，一种利用思维链（CoT）推理来减轻TLS中幻觉的新框架。该框架由三个关键模块组成：i) Element-CoT，用于捕获关键新闻元素以实现忠实摘要；ii) Date Selection，结合时间显著性和事件显著性进行时间戳选择；iii) Causal-CoT，推断因果关系以减少日期事件摘要中的遗漏。大量实验，包括在三个TLS基准上的定量分析和人工评估，表明NTS-CoT优于最先进的基线模型，有效减轻了幻觉并提高了基于LLM的TLS性能。我们的源代码可在https://anonymous.4open.science/r/NTS-CoT获取。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:51

# NTS-CoT：利用链式推理缓解基于LLM的新闻时间线摘要中的幻觉

来源：https://arxiv.org/html/2606.13171

冯律1，闫慧琴1，段思静2，吴浩3，顾爽4，乔雪4，张维旭5，吴浩伦5  
1中南大学，2清华大学，3南京大学，4苏州空天信息研究院，5麦吉尔大学

###### 摘要

在线新闻的快速更新使追踪事件发展变得困难，凸显了时间线摘要（TLS）的需求。在基于LLM的TLS中，LLM生成内容偏离来源新闻的幻觉问题仍然是一个关键挑战，且现有研究对此探讨不足。为了弥补这一空白，我们识别出两种主要的幻觉类型：新闻摘要中的不忠实内容和日期-事件摘要中的信息遗漏。然后，我们提出NTS-CoT，一个新颖的框架，利用链式推理（CoT）来缓解TLS中的幻觉。该框架包含三个关键模块：i）*元素CoT*用于捕获关键新闻要素以实现忠实摘要，ii）*日期选择*用于结合时间显著性和事件突出性进行时间戳选择，以及iii）*因果CoT*用于推断因果关系并减少日期-事件摘要中的遗漏。大量实验，包括在三个TLS基准上的定量分析和人工评估，表明NTS-CoT优于最先进的基线，有效缓解了幻觉并提升了基于LLM的TLS性能。我们的源代码可在https://anonymous.4open.science/r/NTS-CoT获得。

## 1 引言

互联网上新闻的快速扩散，以其复杂性和持续更新为特征，使得个人难以有效追踪和理解事件的进展。时间线摘要（TLS）通过按时间顺序组织主题发展的关键阶段，并为每个时间戳提供简洁摘要来解决这一挑战。通过提供历史事件发展的结构化概览，TLS帮助用户快速识别其查询主题的相关趋势和模式。这种能力在灾害响应、政策演变和趋势分析等关键场景中尤为宝贵。

传统的TLS研究主要集中在日期选择[1,2,3]和抽取式事件摘要[4,5]上，但句子级提取可能存在内容重复、逻辑不连贯或细节缺失等问题，从而降低时间线摘要的可读性。近年来，大型语言模型（LLMs）在TLS中展现出强大的能力[6,7]。然而，LLMs容易产生幻觉[8,9,10,11,12]，即生成的内容可能流畅且连贯，但与实际事件或上下文不符。现有的基于LLM的研究主要定义新的TLS任务并将LLMs应用于其中，针对幻觉缓解的研究有限[13,14]。

基于LLM的TLS中的幻觉主要发生在生成新闻摘要和日期-事件摘要的过程中，涵盖单文档摘要和多文档摘要。如图1所示，幻觉的一个主要表现是在*新闻摘要阶段*生成了偏离来源新闻的*不忠实内容*[15]。此外，新闻内容的多样性和重叠性，以及事件之间的相互依赖关系，常常导致在*日期-事件摘要阶段*出现*信息遗漏*[16,17,18]。这些现象突显了需要更稳健的机制来确保LLM生成的TLS输出的准确性和完整性。

请参阅图注

图1：LLMs在新闻时间线摘要任务中产生幻觉的例子。

为了缓解基于LLM的新闻时间线摘要中的幻觉，链式推理（CoT）是一种有效方法。CoT通过将复杂任务分解为中间推理步骤，增强模型生成忠实连贯摘要的能力，从而减少错误并提高与源内容的一致性[19,20,21]。然而，仍然存在两个关键挑战：（i）如何设计CoT来增强LLM对单个新闻事件细节和里程碑日期选择的关注，以防止生成不忠实的内容？（ii）如何引导LLM识别并保留跨多个文档的潜在关系，从而最小化信息遗漏？

在本文中，我们提出一个新颖的框架*NTS-CoT*，它采用精心设计的CoT推理技术来应对这些挑战。*NTS-CoT*分三个阶段进行：基于单文档的新闻摘要、日期选择以及基于多文档的日期-事件摘要。在第一阶段，我们设计了元素CoT模块，从主题相关新闻中推断关键要素（例如事件、实体、地点、日期和结果），通过确保准确捕获关键细节来有效减少不忠实内容幻觉。在日期选择阶段，我们构建关联日期图来评估日期重要性，并执行事件聚类以识别里程碑事件。最后，在日期-事件摘要阶段，设计了因果CoT模块来推理跨多个文档的事件之间的因果关系，进一步缓解信息遗漏幻觉，并生成与原始内容更一致的时间线摘要。

我们在三个TLS基准数据集上进行了定量分析实验，并进行了人工评估以展示我们方法的有效性。结果表明，与SOTA基线相比，*NTS-CoT*在AR-1上提升了23.4%，AR-2提升了33.4%，Date-F1提升了10.0%，表明*NTS-CoT*在文本忠实度和时间准确性方面均表现出色，有效减少了生成时间线中的事实不一致和遗漏。人工评估进一步证实了*NTS-CoT*的优越性，评估者在67.74%的情况下更偏好其摘要的忠实度，在54.38%的情况下更偏好其完整性，优于LLM-TLS。总之，我们的贡献如下：

- • 我们提出了一个新的框架NTS-CoT，它缓解了基于LLM的TLS中的两种幻觉：新闻摘要中的不忠实内容幻觉和日期-事件摘要中的信息遗漏幻觉。
- • 我们引入了两个关键的CoT模块：元素CoT和因果CoT。元素CoT通过将摘要建立在可验证的新闻要素上来解决不忠实内容幻觉，而因果CoT通过利用因果推理整合跨多个文档的信息来减少遗漏幻觉。我们还实现了一个平衡时间显著性和事件突出性的日期选择模块。
- • 定量分析和人工评估证明了NTS-CoT在TLS任务上的有效性，在三个真实世界基准数据集上优于基线。我们所有的代码都是开源的。

## 2 预备知识

### 2.1 时间线摘要

给定一组新闻文章A={a1, a2, ..., an}，跨越时间范围T={t1, t2, ..., tn}，以及一组主题查询关键词Q，其中每篇文章包含发布时间。我们的任务是为每个主题关键词生成一个时间线摘要S，该摘要包含l个时间戳ti∈T，每个时间戳关联一个事件摘要s_ti。例如，我们以固定格式提取包含时间戳ti的摘要s_ti：“1999-01-07：比尔·克林顿总统的弹劾审判开始，参议院将就罢免他的职务进行投票。”通常，时间线摘要按时间顺序组织，表示为S={{t1}, {s_{t1}}; {t2}, {s_{t2}}; ...; {tl}, {s_{tl}}}。

### 2.2 TLS中的幻觉

在确定新闻TLS中的幻觉类型之前，我们进行了初步评估。我们从三个基准数据集[22,23,3]中随机抽取了1500条新闻和300条日期-事件新闻，生成摘要并请志愿者手动标注幻觉。结果显示，28.6%的单篇新闻摘要包含不忠实内容幻觉，23.7%的日期-事件摘要存在信息遗漏，这些比率被认为相对较高。

因此，我们的调查证实，基于LLM的TLS中的幻觉主要体现在两个阶段：新闻摘要和日期-事件摘要。当LLM为给定文章ai生成摘要ŝ_ai，且该摘要包含与原文不一致或原文中没有的内容时（例如图1(a)），就会产生新闻摘要阶段的幻觉。我们将新闻摘要阶段的幻觉定义为输出摘要ŝ_ai不忠实于给定文章ai。在日期-事件摘要阶段，幻觉表现为将多个摘要{ŝ_a1, ... ŝ_an}聚合为s_ti（例如图1(b)）。我们将该阶段的幻觉定义为LLM输出的摘要s_ti遗漏重要信息或包含冗余信息。

## 3 方法

在本节中，我们提出NTS-CoT，这是一个新颖的框架，利用CoT推理能力来缓解LLMs在TLS任务中的幻觉，并实现对特定主题的准确时间线摘要。如图2所示，NTS-CoT由三个关键模块组成：使用*元素CoT*进行新闻摘要以缓解忠实性幻觉，日期选择，以及使用*因果CoT*进行日期-事件摘要以减少信息冗余和遗漏。

请参阅图注

图2：用于TLS的NTS-CoT流程概述及示例。给定新闻文章和主题查询，流程（1）使用元素CoT对每篇文章进行摘要，（2）为时间线选择日期，（3）使用因果CoT对这些日期的事件聚类进行摘要。灰色方块和绿色圆圈分别代表新闻摘要和同一事件的事件聚类，每个聚类包含描述同一事件的多条新闻摘要。

### 3.1 新闻摘要

在本节中，我们使用LLMs为每篇新闻文章生成摘要。以往的方法通常直接提取代表性句子作为其摘要，这保证了表面层面的忠实性，但往往不完整且冗余，仅捕获事件的部分内容。相比之下，生成式摘要能够将文章中的分散信息整合成简洁、语义连贯的描述。

然而，在新闻摘要中，由于内部知识与上下文之间的混淆或冲突，LLMs可能生成不忠实的内容。为了解决这个问题，我们设计了一个*元素CoT*提示，首先指示LLMs专注于分析文章中的关键新闻要素，提取结构化的事件要素作为可验证的事实单元，然后在总结每篇新闻文章时，基于这些要素和原文进行生成。

#### 3.1.1 新闻要素提取

在专业新闻写作中，作者通常遵循“拉斯韦尔传播模型”理论[24]（即“5W1H”范式1115W1H范式：何事、为何、何人、何地、何时、如何。何事和如何可归为事件。何人为实体，即事件的参与者。何地为事件发生地点。何时为日期。为何为事件结果。）。它包括五个核心新闻要素：*事件*、*实体*、*地点*、*日期*、*结果*。识别并提取新闻中与主题相关的这些要素至关重要，因为它们构成了后续摘要的事实基础。因此，我们为每个要素设计了一个包含五个针对性引导问题的提示，引导LLM生成忠实于原始新闻内容的内容：（1）本文中与关键词相关的事件是什么？（2）本文中与关键词相关的该事件有哪些重要实体？（3）事件发生在何处？（4）本文中与关键词相关的该事件的重要日期是什么？（5）结果是什么？此外，我们在提示中进一步加入了一个单样本示例，以帮助LLMs更好地提取要素。通过提供提示，我们可以利用LLMs的上下文学习能力，使其能够根据给定信息调整生成策略。

#### 3.1.2 基于要素的摘要

第二步是生成摘要。为了平衡忠实性和完整性，我们设计了一个结构化提示，其中包含原始文章、提取的要素以及一个单样本示例。这引导LLM关注与主题相关的事实，同时保留必要的上下文，使其更有可能在摘要中保留这些细节，而不是冗余或次要的细节。

通过*元素CoT*的多步推理过程，提取的要素被整合到提示中，确保LLM对最关键细节有清晰的参考。最后，我们以特定格式输出新闻摘要，例如：“2005-01-03：乔治·W·布什总统任命前总统乔治·H·W·布什和比尔·克林顿领导印度洋毁灭性海啸后的人道主义救援筹款工作。”这种方法有助于保持生成内容与上下文之间的一致性，有效降低新闻摘要中歧义和幻觉的风险。*元素CoT*中的所有提示可参见图4。

### 3.2 日期选择

为了识别l个有代表性的日期来构建时间线，我们期望通过多个维度来衡量一个日期是否重要。我们的日期选择模块构建了一个关联日期图来分析时间显著性，并通过事件聚类评估事件突出性。详情如算法1所示。

#### 3.2.1 关联日期图构建

考虑到一个事件可能在其发生当时并未引起太多关注，但逐渐获得

NTS-CoT: 使用思维链推理减轻基于LLM的新闻时间线摘要中的幻觉

相似文章

基于代理上下文的链式思维微调长上下文推理

@stanfordnlp: CoT 监测：一个热门安全问题从何而来？ @peterbhase 和 @ChrisGPotts https://ai.stanford.edu/blog/co…

COTCAgent：基于概率链式思维完成的预防性咨询

多样本思维链上下文学习：让上下文学习真正学会

SLAT: 面向高效CoT推理的片段级自适应修剪

提交意见反馈