从无查询摘要数据集生成查询聚焦摘要数据集

arXiv cs.CL 论文

摘要

本文提出了一种基于证据的模型,可从无查询摘要数据集中自动生成查询关键词,从而创建查询聚焦摘要数据集。实验结果表明,使用基于证据的查询生成的摘要与原始查询生成的摘要相比,获得了具有竞争力的ROUGE分数。

arXiv:2605.05392v1 公告类型: 新 摘要:大规模数据集广泛用于执行摘要任务,但它们可能不包含与文档和摘要一起提供的查询。在寻找适用于查询聚焦摘要(QFS)的数据集时,我们确定了两个研究问题:是否可能从无查询数据集自动生成基于证据的查询关键词?基于证据的查询生成是否支持QFS任务?本文提出了一种基于证据的模型,用于从无查询数据集生成查询。为了内在评估我们的模型,我们比较了两个QFS数据集的原始查询与系统生成的查询之间的相似性。我们还使用不同的预训练模型以及最先进的(SOTA)QFS模型执行摘要任务,以衡量我们查询生成方法的外在性能。实验结果表明,使用基于证据的查询生成的摘要与从原始查询生成的摘要相比,获得了具有竞争力的ROUGE分数。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:25

# 从无查询摘要数据集中生成查询聚焦摘要数据集
来源: https://arxiv.org/html/2605.05392
Deen Abdullah 莱斯布里奇大学 加拿大阿尔伯塔省 deen\.abdullah@uleth\.ca

###### 摘要

大规模数据集广泛用于执行摘要任务,但这些数据集可能不包含与文档和摘要配对的查询。在寻找适用于查询聚焦摘要(QFS)的数据集时,我们提出了两个研究问题:是否可以从无查询数据集中自动生成基于证据的查询关键词?基于证据的查询生成是否支持 QFS 任务?本文提出了一种基于证据的模型,用于从无查询数据集中生成查询。为了对模型进行内在评估,我们比较了两个 QFS 数据集中原始查询与系统生成查询之间的相似性。我们还使用不同的预训练模型以及目前最先进的(SOTA)QFS 模型执行摘要任务,以衡量我们查询生成方法的外在性能。实验结果表明,使用基于证据的查询生成的摘要,其 ROUGE 分数与使用原始查询生成的摘要相比具有竞争力。

---

# 从无查询摘要数据集中生成查询聚焦摘要数据集

Yllias Chali
莱斯布里奇大学
加拿大阿尔伯塔省
yllias\.chali@uleth\.ca

Deen Abdullah
莱斯布里奇大学
加拿大阿尔伯塔省
deen\.abdullah@uleth\.ca

## 1 引言

查询聚焦摘要(QFS)专注于从原始文档中生成摘要,该摘要针对特定的给定查询进行定制。研究人员已经实现了各种神经模型,并提出了多种独特的方法来推进抽取式和生成式查询聚焦摘要任务 (Lin, 2004 (https://arxiv.org/html/2605.05392#bib.bib1); Gupta et al., 2007 (https://arxiv.org/html/2605.05392#bib.bib2); Wan et al., 2007 (https://arxiv.org/html/2605.05392#bib.bib3); Ouyang et al., 2011 (https://arxiv.org/html/2605.05392#bib.bib4); Feigenblat et al., 2017 (https://arxiv.org/html/2605.05392#bib.bib5); Nema et al., 2017 (https://arxiv.org/html/2605.05392#bib.bib6); Hasselqvist et al., 2017 (https://arxiv.org/html/2605.05392#bib.bib7); Baume et al., 2018 (https://arxiv.org/html/2605.05392#bib.bib8); Abdullah and Chali, 2020 (https://arxiv.org/html/2605.05392#bib.bib9); Xu and Lapata, 2020 (https://arxiv.org/html/2605.05392#bib.bib10); Laskar et al., 2020 (https://arxiv.org/html/2605.05392#bib.bib11); Su et al., 2021 (https://arxiv.org/html/2605.05392#bib.bib12))。然而,QFS 缺乏合适的数据集一直是研究人员关注的问题,因为大规模数据集的不可用使得任务更具挑战性 (Fisher and Roark, 2006 (https://arxiv.org/html/2605.05392#bib.bib13); See et al., 2017 (https://arxiv.org/html/2605.05392#bib.bib14); Liu and Lapata, 2019 (https://arxiv.org/html/2605.05392#bib.bib15); Abdullah and Chali, 2020 (https://arxiv.org/html/2605.05392#bib.bib9))。因此,大型 QFS 数据集的短缺促使了有效查询生成方法的发展。为了解决这个问题,我们提出了一种面向上下文的、基于证据的模型,该模型通过从任何无查询数据集中的文档生成查询来支持查询聚焦摘要。使用迁移学习方法,我们在 CNN/DailyMail 数据集的文章-高亮对上训练我们的基于证据的模型。为了避免数据偏差,我们在 QFS 任务中使用不同的数据集,如 Debatepedia 和 TD-QFS,而不是 CNN/DailyMail。此外,这两个数据集都包含查询,使我们能够比较原始查询与生成的基于证据的查询的性能。表 1 显示了 TD-QFS 数据集中原始查询和基于证据的查询的样本。

表 1:来自 TD-QFS 数据集的样本查询(原始查询和基于证据的查询)。

## 2 相关工作

预训练模型,包括 BERT (Devlin et al., 2019 (https://arxiv.org/html/2605.05392#bib.bib16))、GPT (Radford et al., 2019 (https://arxiv.org/html/2605.05392#bib.bib17))、RoBERTa (Liu et al., 2019 (https://arxiv.org/html/2605.05392#bib.bib18))、T5 (Raffel et al., 2020 (https://arxiv.org/html/2605.05392#bib.bib19))、LED (Beltagy et al., 2020 (https://arxiv.org/html/2605.05392#bib.bib20))、BART (Lewis et al., 2020 (https://arxiv.org/html/2605.05392#bib.bib21)) 和 PEGASUS (Zhang et al., 2020 (https://arxiv.org/html/2605.05392#bib.bib22)),已被广泛用于各种数据集,如 Gigaword (Ma and Huang, 2006 (https://arxiv.org/html/2605.05392#bib.bib23))、CNN/DailyMail (Hermann et al., 2015 (https://arxiv.org/html/2605.05392#bib.bib24))、SQuAD (Rajpurkar et al., 2016 (https://arxiv.org/html/2605.05392#bib.bib25))、TD-QFS (Baume et al., 2016 (https://arxiv.org/html/2605.05392#bib.bib26)) 和 Debatepedia (Nema et al., 2017 (https://arxiv.org/html/2605.05392#bib.bib6)) 来执行摘要、机器翻译和其他 NLP 任务 (Rush et al., 2015 (https://arxiv.org/html/2605.05392#bib.bib27); Nallapati et al., 2016 (https://arxiv.org/html/2605.05392#bib.bib28); Durrett et al., 2016 (https://arxiv.org/html/2605.05392#bib.bib29))。

通过强调基于查询的注意力机制,Nema 等人 (2017 (https://arxiv.org/html/2605.05392#bib.bib6)) 实现了一个多样性驱动的模型,减少了摘要中的重复短语。Abdullah 和 Chali (2020 (https://arxiv.org/html/2605.05392#bib.bib9)) 提出了一种查询生成方法,该方法同时考虑输入文档和目标摘要。类似地,Xu 和 Lapata (2020 (https://arxiv.org/html/2605.05392#bib.bib10)) 解决了查询-聚类交互的问题,并为查询聚焦的多文档抽取式摘要提出了一种粗到细的模型。

在本文中,我们提出了一种基于证据的模型,利用迁移学习方法生成基于证据的查询。首先,我们在 CNN/DailyMail 数据集中的文章-高亮对上训练一个模型,以生成证据关键词。然后,我们使用这个证据模型为 Debatepedia 和 TD-QFS 数据集生成基于证据的查询。

## 3 问题定义

给定一个查询 Qi 和一个文档 Di,我们在 QFS 任务中生成一个与查询相关的摘要 Si。查询应聚焦于文档中与其关键词相关的部分,而摘要应覆盖文档中相应的查询相关上下文。在本文中,我们将文档和摘要中同时出现的常见上下文词语定义为证据。然而,挑战在于仅使用文档生成这样的证据。因此,我们假设迁移学习方法可以帮助训练一个基于证据的模型,用于文档到基于证据的查询生成任务。

## 4 我们的框架

在查询聚焦摘要中,摘要应与查询对齐,这意味着与查询相关的信息必须存在于文档中。因此,查询应得到摘要和文档的支持,这意味着证据关键词必须在查询中反映出来。然而,只有少数 QFS 数据集提供了查询-文档-摘要三元组,并且这些数据集通常是基于简化假设构建的。例如,在 Debatepedia 数据集中,有争议辩论中的问题被视为查询,而主题标题被视为摘要。在这种情况下,某些标题(摘要)可能不完全与查询相关。

受此限制的启发,我们研究了证据关键词是否能在 QFS 数据集中比原始查询表现更好。如果我们的假设成立,那么基于证据的查询就可以应用于无查询资源用于 QFS 任务。因此,我们提出了一种基于证据的模型,从文档生成证据,并将其用作查询。我们的工作由两个主要步骤组成。首先,我们在 CNN/DailyMail 数据集上微调一个预训练模型,用于文档到查询的生成任务。然后,使用基于证据的模型,我们在不访问摘要的情况下为 Debatepedia 和 TD-QFS 数据集生成基于证据的查询。这种迁移学习方法帮助我们在生成基于证据的查询时避免目标泄漏。

我们使用包含新闻文章-高亮对的 CNN/DailyMail 数据集来生成基于证据的查询。具体来说,我们从新闻文章及其对应的高亮中提取共同词语,并使用公式 1 将其视为证据:

Ei ← {wij} (if wij = wik) (1)

其中 Ei 是从第 i 个样本的新闻文章 (Ni) 和高亮 (Hi) 中提取的证据关键词集合。这里,wij 是 Ni 的分词词语,wik 是 Hi 的分词词语。

T5 模型已成功应用于各种下游任务;因此,我们选择它作为预训练模型,并对其进行微调以用于证据生成任务。新闻文章被输入编码器,提取的证据被提供给解码器进行监督微调。我们在反向传播期间使用交叉熵损失函数更新模型参数。我们基于证据的模型的总体架构如图 1 所示。

图 1:证据模型——在 CNN/DM(新闻文章,高亮)上微调 T5

## 5 评估细节

### 5.1 内在评估

为了确定我们基于证据的查询与原始查询之间的相似性,我们使用开源库 spaCy 进行了内在评估。

### 5.2 外在评估

#### 5.2.1 使用预训练模型进行摘要

生成基于证据的查询后,我们根据每个句子与生成查询的相关性对文档中的句子进行排序,从而将文档转换为与查询相关的输入。这种排序确保与查询相关的句子出现在文档的开头,降低了重要信息因输入大小限制而被截断的风险。最后,我们在 Debatepedia 数据集的查询相关文档上微调了几个预训练摘要模型(在我们的实验中分别使用了四个模型),以生成查询聚焦摘要。

句子排序

我们使用 Debatepedia 数据集进行 QFS 任务,其中句子排序有助于将文档准备为与查询相关的文本输入。首先,我们应用基于证据的模型为 Debatepedia 数据集中的文档生成基于证据的查询。然后,对于每个样本,我们将文档分割成句子列表,并使用公式 2、3 和 4 将包括生成的基于证据的查询和文档句子在内的所有文本转换为相应的向量表示。接下来,我们使用 spaCy 的相似度度量计算每个句子与查询之间的相似度,如公式 5 所示。最后,我们按相似度分数降序排列所有句子,以构建与查询相关的文档,如公式 6 所述。

Si = sentenceTokenization(Di) (2)
Ei^vec = Doc2Vec(Ei) (3)
sj^vec = Doc2Vec(sj); [sj ∈ Si] (4)
sj^sim = spaCy.similarity(Ei^vec, sj^vec) (5)
Di^E = {s1, s2, ..., sp, sq, ..., s|Di|} (6)

其中 Si 是第 i 个样本中文档 Di 的句子列表。Ei^vec 和 sj^vec 分别是证据 Ei 和句子 sj 的向量表示。sj^sim 是基于证据的查询与文档中第 j 个句子之间的相似度分数。最后,Di^E 表示第 i 个样本的查询聚焦文档,其中 [∀ p,q sp^sim ≥ sq^sim, p < q]。

摘要模型

我们使用基于 transformer 的预训练模型进行摘要任务:PEGASUS、BART、RoBERTa 和 LED。由于这些模型可以处理有限数量的输入令牌(PEGASUS、BART 和 LED 为 1024 个令牌,RoBERTa 为 514 个令牌),因此在训练期间将最与查询相关的令牌放置在输入序列的开头,以有效生成查询聚焦摘要非常重要。我们的句子排序方法确保了最与查询相关的句子出现在输入的开头。

预训练模型通常针对特定下游任务进行训练,并且可以在不同数据集上针对类似任务进行微调。我们选择 PEGASUS、BART、RoBERTa 和 LED,因为它们针对摘要或句子生成任务进行了预训练。然后,我们在 Debatepedia 数据集的查询聚焦文档上对这些模型进行微调,用于 QFS 任务,以评估我们的假设。

#### 5.2.2 使用 SOTA QFS 模型进行摘要

我们使用 QuerySum (Xu and Lapata, 2020 (https://arxiv.org/html/2605.05392#bib.bib10))(一种最新的最先进(SOTA)QFS 模型)进行了另一个实验,以比较在 TD-QFS 数据集上使用原始查询和基于证据的查询获得的结果。

## 6 实验设置

### 6.1 数据集

我们使用 CNN/DailyMail 数据集训练基于证据的模型,并使用 Debatepedia 和 TD-QFS 数据集通过生成的基于证据的查询和原始查询对其进行评估。

### 6.2 实现细节

我们从 CNN/DailyMail 数据集中使用 7 万个训练样本和 1,337 个验证样本来微调基于证据的模型。对于摘要任务,我们从 Debatepedia 数据集中使用 1.2 万个训练样本和 719 个验证样本,以及五个预训练模型:T5、PEGASUS、BART、RoBERTa 和 LED。

我们使用类似的参数配置来微调证据生成模型和摘要模型。我们将训练轮数设置为 3,权重衰减设置为 0.01,学习率设置为 5e-05。我们使用 Adam 优化器,其中 β1=0.9,β2=0.999,ε=1e-08。训练批次大小设置为 8,评估批次大小设置为 32。在微调基于证据的模型时,我们将预热步数设置为 5,000,并每 500 步评估一次模型。对于摘要模型,我们将预热步数设置为 1,000,并每 250 步评估一次模型。

为了实现 QuerySum 模型,我们遵循 Xu 和 Lapata(2020)提供的说明进行两种实验设置,分别使用原始查询和基于证据的查询。

## 7 结果与讨论

在进行内在评估后,我们计算了 Debatepedia 和 TD-QFS 数据集中原始查询与基于证据的查询之间的相似度分数,如表 2 所示。Debatepedia 数据集的相似度分数较低,因为其查询被表述为问题。相比之下,TD-QFS 查询和我们的基于证据的查询都表示为关键词集合。

表 2:原始查询与基于证据的查询之间的相似度分数

我们的目标不是要在 Debatepedia 数据集上为 QFS 任务获得最先进的结果;相反,我们的目标是证明基于证据的查询在四种不同的预训练模型上可以比数据集中可用的原始查询表现更好。我们的实验结果如表 3 所示。

表 3:PEGASUS、BART、RoBERTa 和 LED 模型在 Debatepedia 数据集上的性能

相似文章

基于微调PEGASUS的抽象摘要优化

arXiv cs.CL

本文展示了在XL-Sum英语语料库上微调PEGASUS的方法,在ROUGE评分上相比基线mT5模型取得了显著提升,达到了当前最优结果。

通过人类反馈学习总结

OpenAI Blog

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。