NTS-CoT: 使用思维链推理减轻基于LLM的新闻时间线摘要中的幻觉

arXiv cs.CL 论文

摘要

本文提出NTS-CoT,一种使用思维链推理来减轻基于LLM的新闻时间线摘要中幻觉的新框架。它引入了三个模块——Element-CoT、Date Selection和Causal-CoT——以提高忠实度并减少遗漏,在三个基准测试上优于最先进的基线模型。

arXiv:2606.13171v1 公告类型:新 摘要:在线新闻的快速更新使得跟踪事件发展变得具有挑战性,凸显了时间线摘要(TLS)的需求。幻觉,即LLM生成的内容偏离源新闻,仍然是基于LLM的时间线摘要中的一个关键问题,并且现有研究对此尚未深入探讨。为了弥补这一差距,我们识别了两种主要的幻觉类型:新闻摘要中的不忠实内容和日期事件摘要中的信息遗漏。然后,我们提出NTS-CoT,一种利用思维链(CoT)推理来减轻TLS中幻觉的新框架。该框架由三个关键模块组成:i) Element-CoT,用于捕获关键新闻元素以实现忠实摘要;ii) Date Selection,结合时间显著性和事件显著性进行时间戳选择;iii) Causal-CoT,推断因果关系以减少日期事件摘要中的遗漏。大量实验,包括在三个TLS基准上的定量分析和人工评估,表明NTS-CoT优于最先进的基线模型,有效减轻了幻觉并提高了基于LLM的TLS性能。我们的源代码可在https://anonymous.4open.science/r/NTS-CoT获取。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:51

# NTS-CoT:利用链式推理缓解基于LLM的新闻时间线摘要中的幻觉

来源:https://arxiv.org/html/2606.13171

冯律1,闫慧琴1,段思静2,吴浩3,顾爽4,乔雪4,张维旭5,吴浩伦5  
1中南大学,2清华大学,3南京大学,4苏州空天信息研究院,5麦吉尔大学

###### 摘要

在线新闻的快速更新使追踪事件发展变得困难,凸显了时间线摘要(TLS)的需求。在基于LLM的TLS中,LLM生成内容偏离来源新闻的幻觉问题仍然是一个关键挑战,且现有研究对此探讨不足。为了弥补这一空白,我们识别出两种主要的幻觉类型:新闻摘要中的不忠实内容和日期-事件摘要中的信息遗漏。然后,我们提出NTS-CoT,一个新颖的框架,利用链式推理(CoT)来缓解TLS中的幻觉。该框架包含三个关键模块:i)*元素CoT*用于捕获关键新闻要素以实现忠实摘要,ii)*日期选择*用于结合时间显著性和事件突出性进行时间戳选择,以及iii)*因果CoT*用于推断因果关系并减少日期-事件摘要中的遗漏。大量实验,包括在三个TLS基准上的定量分析和人工评估,表明NTS-CoT优于最先进的基线,有效缓解了幻觉并提升了基于LLM的TLS性能。我们的源代码可在https://anonymous.4open.science/r/NTS-CoT获得。

## 1 引言

互联网上新闻的快速扩散,以其复杂性和持续更新为特征,使得个人难以有效追踪和理解事件的进展。时间线摘要(TLS)通过按时间顺序组织主题发展的关键阶段,并为每个时间戳提供简洁摘要来解决这一挑战。通过提供历史事件发展的结构化概览,TLS帮助用户快速识别其查询主题的相关趋势和模式。这种能力在灾害响应、政策演变和趋势分析等关键场景中尤为宝贵。

传统的TLS研究主要集中在日期选择[1,2,3]和抽取式事件摘要[4,5]上,但句子级提取可能存在内容重复、逻辑不连贯或细节缺失等问题,从而降低时间线摘要的可读性。近年来,大型语言模型(LLMs)在TLS中展现出强大的能力[6,7]。然而,LLMs容易产生幻觉[8,9,10,11,12],即生成的内容可能流畅且连贯,但与实际事件或上下文不符。现有的基于LLM的研究主要定义新的TLS任务并将LLMs应用于其中,针对幻觉缓解的研究有限[13,14]。

基于LLM的TLS中的幻觉主要发生在生成新闻摘要和日期-事件摘要的过程中,涵盖单文档摘要和多文档摘要。如图1所示,幻觉的一个主要表现是在*新闻摘要阶段*生成了偏离来源新闻的*不忠实内容*[15]。此外,新闻内容的多样性和重叠性,以及事件之间的相互依赖关系,常常导致在*日期-事件摘要阶段*出现*信息遗漏*[16,17,18]。这些现象突显了需要更稳健的机制来确保LLM生成的TLS输出的准确性和完整性。

请参阅图注

图1:LLMs在新闻时间线摘要任务中产生幻觉的例子。

为了缓解基于LLM的新闻时间线摘要中的幻觉,链式推理(CoT)是一种有效方法。CoT通过将复杂任务分解为中间推理步骤,增强模型生成忠实连贯摘要的能力,从而减少错误并提高与源内容的一致性[19,20,21]。然而,仍然存在两个关键挑战:(i)如何设计CoT来增强LLM对单个新闻事件细节和里程碑日期选择的关注,以防止生成不忠实的内容?(ii)如何引导LLM识别并保留跨多个文档的潜在关系,从而最小化信息遗漏?

在本文中,我们提出一个新颖的框架*NTS-CoT*,它采用精心设计的CoT推理技术来应对这些挑战。*NTS-CoT*分三个阶段进行:基于单文档的新闻摘要、日期选择以及基于多文档的日期-事件摘要。在第一阶段,我们设计了元素CoT模块,从主题相关新闻中推断关键要素(例如事件、实体、地点、日期和结果),通过确保准确捕获关键细节来有效减少不忠实内容幻觉。在日期选择阶段,我们构建关联日期图来评估日期重要性,并执行事件聚类以识别里程碑事件。最后,在日期-事件摘要阶段,设计了因果CoT模块来推理跨多个文档的事件之间的因果关系,进一步缓解信息遗漏幻觉,并生成与原始内容更一致的时间线摘要。

我们在三个TLS基准数据集上进行了定量分析实验,并进行了人工评估以展示我们方法的有效性。结果表明,与SOTA基线相比,*NTS-CoT*在AR-1上提升了23.4%,AR-2提升了33.4%,Date-F1提升了10.0%,表明*NTS-CoT*在文本忠实度和时间准确性方面均表现出色,有效减少了生成时间线中的事实不一致和遗漏。人工评估进一步证实了*NTS-CoT*的优越性,评估者在67.74%的情况下更偏好其摘要的忠实度,在54.38%的情况下更偏好其完整性,优于LLM-TLS。总之,我们的贡献如下:

- • 我们提出了一个新的框架NTS-CoT,它缓解了基于LLM的TLS中的两种幻觉:新闻摘要中的不忠实内容幻觉和日期-事件摘要中的信息遗漏幻觉。
- • 我们引入了两个关键的CoT模块:元素CoT和因果CoT。元素CoT通过将摘要建立在可验证的新闻要素上来解决不忠实内容幻觉,而因果CoT通过利用因果推理整合跨多个文档的信息来减少遗漏幻觉。我们还实现了一个平衡时间显著性和事件突出性的日期选择模块。
- • 定量分析和人工评估证明了NTS-CoT在TLS任务上的有效性,在三个真实世界基准数据集上优于基线。我们所有的代码都是开源的。

## 2 预备知识

### 2.1 时间线摘要

给定一组新闻文章A={a1, a2, ..., an},跨越时间范围T={t1, t2, ..., tn},以及一组主题查询关键词Q,其中每篇文章包含发布时间。我们的任务是为每个主题关键词生成一个时间线摘要S,该摘要包含l个时间戳ti∈T,每个时间戳关联一个事件摘要s_ti。例如,我们以固定格式提取包含时间戳ti的摘要s_ti:“1999-01-07:比尔·克林顿总统的弹劾审判开始,参议院将就罢免他的职务进行投票。”通常,时间线摘要按时间顺序组织,表示为S={{t1}, {s_{t1}}; {t2}, {s_{t2}}; ...; {tl}, {s_{tl}}}。

### 2.2 TLS中的幻觉

在确定新闻TLS中的幻觉类型之前,我们进行了初步评估。我们从三个基准数据集[22,23,3]中随机抽取了1500条新闻和300条日期-事件新闻,生成摘要并请志愿者手动标注幻觉。结果显示,28.6%的单篇新闻摘要包含不忠实内容幻觉,23.7%的日期-事件摘要存在信息遗漏,这些比率被认为相对较高。

因此,我们的调查证实,基于LLM的TLS中的幻觉主要体现在两个阶段:新闻摘要和日期-事件摘要。当LLM为给定文章ai生成摘要ŝ_ai,且该摘要包含与原文不一致或原文中没有的内容时(例如图1(a)),就会产生新闻摘要阶段的幻觉。我们将新闻摘要阶段的幻觉定义为输出摘要ŝ_ai不忠实于给定文章ai。在日期-事件摘要阶段,幻觉表现为将多个摘要{ŝ_a1, ... ŝ_an}聚合为s_ti(例如图1(b))。我们将该阶段的幻觉定义为LLM输出的摘要s_ti遗漏重要信息或包含冗余信息。

## 3 方法

在本节中,我们提出NTS-CoT,这是一个新颖的框架,利用CoT推理能力来缓解LLMs在TLS任务中的幻觉,并实现对特定主题的准确时间线摘要。如图2所示,NTS-CoT由三个关键模块组成:使用*元素CoT*进行新闻摘要以缓解忠实性幻觉,日期选择,以及使用*因果CoT*进行日期-事件摘要以减少信息冗余和遗漏。

请参阅图注

图2:用于TLS的NTS-CoT流程概述及示例。给定新闻文章和主题查询,流程(1)使用元素CoT对每篇文章进行摘要,(2)为时间线选择日期,(3)使用因果CoT对这些日期的事件聚类进行摘要。灰色方块和绿色圆圈分别代表新闻摘要和同一事件的事件聚类,每个聚类包含描述同一事件的多条新闻摘要。

### 3.1 新闻摘要

在本节中,我们使用LLMs为每篇新闻文章生成摘要。以往的方法通常直接提取代表性句子作为其摘要,这保证了表面层面的忠实性,但往往不完整且冗余,仅捕获事件的部分内容。相比之下,生成式摘要能够将文章中的分散信息整合成简洁、语义连贯的描述。

然而,在新闻摘要中,由于内部知识与上下文之间的混淆或冲突,LLMs可能生成不忠实的内容。为了解决这个问题,我们设计了一个*元素CoT*提示,首先指示LLMs专注于分析文章中的关键新闻要素,提取结构化的事件要素作为可验证的事实单元,然后在总结每篇新闻文章时,基于这些要素和原文进行生成。

#### 3.1.1 新闻要素提取

在专业新闻写作中,作者通常遵循“拉斯韦尔传播模型”理论[24](即“5W1H”范式1115W1H范式:何事、为何、何人、何地、何时、如何。何事和如何可归为事件。何人为实体,即事件的参与者。何地为事件发生地点。何时为日期。为何为事件结果。)。它包括五个核心新闻要素:*事件*、*实体*、*地点*、*日期*、*结果*。识别并提取新闻中与主题相关的这些要素至关重要,因为它们构成了后续摘要的事实基础。因此,我们为每个要素设计了一个包含五个针对性引导问题的提示,引导LLM生成忠实于原始新闻内容的内容:(1)本文中与关键词相关的事件是什么?(2)本文中与关键词相关的该事件有哪些重要实体?(3)事件发生在何处?(4)本文中与关键词相关的该事件的重要日期是什么?(5)结果是什么?此外,我们在提示中进一步加入了一个单样本示例,以帮助LLMs更好地提取要素。通过提供提示,我们可以利用LLMs的上下文学习能力,使其能够根据给定信息调整生成策略。

#### 3.1.2 基于要素的摘要

第二步是生成摘要。为了平衡忠实性和完整性,我们设计了一个结构化提示,其中包含原始文章、提取的要素以及一个单样本示例。这引导LLM关注与主题相关的事实,同时保留必要的上下文,使其更有可能在摘要中保留这些细节,而不是冗余或次要的细节。

通过*元素CoT*的多步推理过程,提取的要素被整合到提示中,确保LLM对最关键细节有清晰的参考。最后,我们以特定格式输出新闻摘要,例如:“2005-01-03:乔治·W·布什总统任命前总统乔治·H·W·布什和比尔·克林顿领导印度洋毁灭性海啸后的人道主义救援筹款工作。”这种方法有助于保持生成内容与上下文之间的一致性,有效降低新闻摘要中歧义和幻觉的风险。*元素CoT*中的所有提示可参见图4。

### 3.2 日期选择

为了识别l个有代表性的日期来构建时间线,我们期望通过多个维度来衡量一个日期是否重要。我们的日期选择模块构建了一个关联日期图来分析时间显著性,并通过事件聚类评估事件突出性。详情如算法1所示。

#### 3.2.1 关联日期图构建

考虑到一个事件可能在其发生当时并未引起太多关注,但逐渐获得

相似文章

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。

多样本思维链上下文学习:让上下文学习真正学会

Hugging Face Daily Papers

本文研究了推理任务的多样本思维链上下文学习,揭示了标准扩展规则并不适用,并提出了Curvilinear Demonstration Selection (CDS)方法以改进示例排序,最高可获得5.42个百分点的性能提升。