基于微调PEGASUS的抽象摘要优化

arXiv cs.CL 论文

摘要

本文展示了在XL-Sum英语语料库上微调PEGASUS的方法,在ROUGE评分上相比基线mT5模型取得了显著提升,达到了当前最优结果。

arXiv:2606.25462v1 公告类型:新论文 摘要:抽象式文本摘要是一种生成简短精炼摘要的技术,该摘要包含源文本的核心思想,而非从源文本中选取子句。BART、T5和PEGASUS等Transformer模型的引入使此类摘要生成过程更加高效和准确。本文的目标是在XL-Sum英语语料库上微调PEGASUS,以获得优于基线mT5模型的性能。我们使用ROUGE指标评估微调模型生成摘要的性能,该指标主要通过比较自动生成摘要与人工创建摘要来评定。据我们所知,我们的微调PEGASUS模型在XL-Sum英语语料库上取得了当前最优性能。具体改进表现为:ROUGE-1分数提升4.04%,ROUGE-2分数提升15.25%,ROUGE-L分数较基线模型提升3.39%。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:12

# 通过微调PEGASUS优化抽象式摘要生成

来源:https://arxiv.org/html/2606.25462

Naimur Rahman, Kazi Nazibul Islam, Ha-mim Ahmad  
BRAC University \{sadiul\.arefin\.rafi, naimur\.rahman1, kazi\.nazibul\.islam, ha\.mim\.ahmad\}@g\.bracu\.ac\.bd  
Farig Yousuf Sadeque  
BRAC University 副教授  
farig\.sadeque@bracu\.ac\.bd

###### 摘要

抽象式文本摘要是生成包含源文本核心思想的简短摘要的技术,而非简单选取源文中的关键句子。BART、T5 和 PEGASUS 等 Transformer 模型的引入使此类摘要过程更加高效和准确。本文旨在通过在 XL-Sum 英文语料库上微调 PEGASUS,以取得比基线模型 mT5 更优的性能。我们使用 ROUGE 指标评估微调模型生成摘要的质量,该指标主要比较自动生成的摘要与人工创建的摘要。据我们所知,我们微调后的 PEGASUS 模型在 XL-Sum 英文语料库上达到了最先进的性能。具体而言,与基线模型相比,ROUGE-1 分数提升了 4.04%,ROUGE-2 分数提升了 15.25%,ROUGE-L 分数提升了 3.39%。

## 1 引言

在我们数据丰富的世界中,书面内容充斥着当代文化的方方面面,涵盖新闻报导、学术研究、社交媒体和产品评论。每日海量的文本数据使得自动文本摘要方法成为必要,这是自然语言处理(NLP)的核心组成部分 Sankarasubramaniam 等人 (2014)。这些方法能够精炼并简洁地呈现文本内容,使读者能够迅速掌握关键信息,无需通读大量原始文档。文本摘要是信息检索和理解领域的基石,有望重塑我们导航不断扩展的知识海洋的方式。

抽取式摘要和抽象式摘要是文本摘要方法的两个主要类别。抽取式摘要从原文中选择一个重要的句子子集来生成摘要。相比之下,抽象式摘要生成一个独特的摘要,捕捉关键点,而不必重复使用源材料中的完整段落 Abdel-Salam 和 Rafea (2022)。虽然使用现成句子简化了抽取方法,但它们常常难以保持连贯性和捕捉完整的上下文。抽象式方法在生成更连贯且上下文更准确的摘要的同时,也增加了复杂性,因为它需要维护事实的完整性并解决歧义问题。

对先进 NLP 系统需求的增长,激发了研究项目,旨在确定如何微调像 PEGASUS 这样的预训练语言模型以增强抽象式摘要。基于传统序列到序列架构并辅以注意力机制的抽象式摘要模型已展现出有希望的结果。然而,它们也存在一些局限性,例如偶尔使用冗余术语以及质量和非常用术语方面的问题。序列到序列模型在并行数据处理方面的速度较慢是其显著缺点之一。Transformer 架构内置的自注意力机制能够对整个输入序列进行并行计算,从而缓解了这一问题 Zhang 等人 (2020)。

在本研究中,我们利用 XL-Sum 语料库微调了 PEGASUS Transformer 模型,以优化其性能。

## 2 研究目标

本研究的核心目标是探索、开发和评估用于抽象式文本摘要的 Transformer 模型。具体目标如下:

- • 确定一种适合抽象式文本摘要的高效 Transformer 模型,在计算效率和摘要质量之间取得平衡。
- • 在 XL-Sum 语料库上微调所确定的高效 Transformer 模型,以调整其参数并使其功能专门针对该数据集的特征。
- • 开发一种最先进的模型,其在抽象式摘要任务上的表现优于基线模型 mT5。
- • 严格比较微调模型与基线模型 mT5 的 ROUGE 分数,以量化性能和摘要质量的提升。

## 3 文献综述

2020 年,Pilault 等人提出了一种方法,利用神经抽象式摘要为通常在数千字以上的长文本生成抽象式摘要。他们的方法包括一个初始的抽取步骤,以便在生成摘要之前,在相关数据上训练 Transformer 语言模型。值得注意的是,与之前使用复制机制的方法相比,该技术获得了更高的 ROUGE 分数,并生成了更具抽象性的摘要 Pilault 等人 (2020)。

确保生成的摘要与原始内容之间信息的准确性是抽象式摘要领域的一个重大挑战。在现有数据集上训练的最新模型表现出一种称为实体幻觉的现象,即它们生成了原始文本中实际不存在的实体引用。解决实体幻觉问题的一个潜在方案是对训练数据进行过滤处理,并引入用于评估摘要事实一致性的补充指标 Nan 等人 (2021)。

PEGASUS 模型是一种专门为抽象式文本摘要优化的序列到序列模型,其预训练目标采用间隙句子生成。类似于抽取式摘要,PEGASUS 接收一个输入文档,屏蔽重要句子,然后从剩余文本中生成单个输出序列。在预训练语料库选择方面,考虑了 C4 和 HugeNews 来训练 `PEGASUS_{LARGE}` 模型。在摘要下游任务中,使用了 12 个公开的抽象式摘要数据集(Zhang 等人,2019),例如 XSum、CNN、NEWSROOM、Gigaword 等。最初,为了加快计算速度,使用了 12 个数据集中的 4 个来训练一个参数量为 2.23 亿的简化模型 `PEGASUS_{BASE}`。随后,通过引入拥有 5.68 亿参数的 `PEGASUS_{LARGE}`(使用了全部 12 个数据集)来扩大预训练规模。最终结果表明,`PEGASUS_{BASE}` 和 `PEGASUS_{LARGE}` 在下游数据集上都取得了巨大的性能提升。`PEGASUS_{BASE}` 能够在多个数据集上达到最优水平(SOT),而 `PEGASUS_{LARGE}` 更是成功超越所有下游数据集上的最优水平 Zhang 等人 (2020)。

## 4 XL-Sum 语料库描述

XL-Sum 是一个庞大的数据集,专门为抽象式摘要任务而创建。它以其多样性而著称,包含超过一百万个经专家标注的文章及其摘要对,全部来自 BBC。语言多样性是其独特特征之一;XL-Sum 提供 44 种语言的数据,其中一些语言缺乏广泛可用的数据集。因此,它对需要多语言能力的研究和其他应用来说极为有用。

根据人工评估和内在指标,该数据集在多个领域都表现出色。它能够生成既简洁又具抽象性且保持高质量标准的摘要。总的来说,XL-Sum 是创建和完善抽象式摘要模型的可靠工具 Hasan 等人 (2021)。

### 4.1 变体

XL-Sum 数据集有两个版本。较新版本的数据集包含了繁体中文。通过添加这种语言,XL-Sum 数据集实现了更好的格式、更优的提取、更大的评估切分以及更多的数据。随着繁体中文的加入,XL-Sum 成为公开可用的最大文本摘要数据集 Hasan 等人 (2021)。

### 4.2 数据划分

## 5 在 XL-Sum 上微调 PEGASUS

本章介绍了我们对 PEGASUS Transformer 模型的实证研究,该模型最初由 Google AI Research 为抽象式摘要而开发。我们主要关注通过完善(微调)该模型在 XL-Sum 数据集上所带来的改进。通过我们的努力,我们创建了一个模型,在相同数据集上进行测试时,其性能优于 mT5 基线。特别地,我们改进后的 PEGASUS 模型在 ROUGE-1、ROUGE-2 和 ROUGE-L 指标上表现出显著增强的性能。

### 5.1 微调 PEGASUS Transformer 模型

我们研究和调查的一大部分集中在微调上。在此过程中,我们使用了 XL-Sum 英文训练语料库的 20% 以及以下超参数:

- • 学习率:2e-05
- • 训练批次大小:8
- • 评估批次大小:8
- • 随机种子:42
- • 优化器:Adam,参数 betas=(0.9, 0.999),epsilon=1e-08
- • 学习率调度器类型:线性
- • 轮数:5

需要记住的是,这些超参数是在经过多次试验和参数扫描以提升性能后选择的。这些决策有助于我们模型的收敛,并产生了更好的结果。

## 6 比较评估:PEGASUS 与 mT5

作为比较的基线模型,我们使用了由 Hasan 等人发布的、在 XL-Sum 语料库上微调的 mT5 模型。其在 ROUGE-1、ROUGE-2 和 ROUGE-L 上的 ROUGE 分数分别为 37.60、15.15 和 29.88 Hasan 等人 (2021)。

表 1:mT5 与微调后 PEGASUS 的 ROUGE 分数
这些结果显示,与我们改进后的 PEGASUS 模型相比,性能有了显著提升。我们的模型在 ROUGE-1 上取得了 39.121 分,ROUGE-2 上取得了 17.467 分,ROUGE-L 上取得了 30.894 分。这些指标的改进说明了我们微调过程的有效性,并证实了 PEGASUS Transformer 模型在适当应用于特定工作负载时的强大能力。

## 7 结论

在这项工作中,我们尝试了多种 Transformer 架构,在 XL-Sum 英文数据集上微调抽象式文本摘要模型。Hasan 等人的 mT5_multilingual_XLSum 模型在 ROUGE-1、ROUGE-2 和 ROUGE-L 上分别得到了 37.601、15.153 和 29.88 的 ROUGE 分数。然而,当我们使用预训练的 PEGASUS 模型进行微调时,观察到了显著的改进。我们将开发的模型命名为 pegasus_xlsum,它在所有 ROUGE 指标上都优于 mT5_multilingual_XLSum 模型,分别达到了 39.121、17.467 和 30.894 的 ROUGE-1、ROUGE-2 和 ROUGE-L 分数。为了量化改进,我们可以看到 ROUGE-1 分数提升了 4.04%,ROUGE-L 分数提升了 3.39%。我们的模型表现出显著的改进,ROUGE-2 分数提升了 15.25%,这表明在捕捉更复杂的句子结构和内容关系方面有了实质性增强。这些结果表明,我们微调的模型不仅在 XL-Sum 语料库上优于基线模型 mT5,而且在其英文语料库上达到了最先进的性能。

## 8 局限性

大型预训练 Transformer 模型计算复杂度高,需要显著的硬件资源才能高效运行。在微调基线模型时,我们实现了早停机制,如果在预定轮数内模型在评估数据集上的性能没有改善,则终止训练。按照惯例,微调应设置更多的轮数。然而,由于我们在资源方面面临的限制,我们决定仅在 20% 的训练语料库上进行微调,并在仅 5 轮后终止训练。我们微调后的 Transformer 模型的另一个局限性是处理短输入文本的能力。我们发现,为了生成连贯且简洁的摘要,至少需要几行输入文本。

## 参考文献

- S. Abdel-Salam 和 A. Rafea (2022). 使用 BERT 模型进行抽取式文本摘要的性能研究。*Information*, 13(2). 外部链接: Link, ISSN 2078-2489, 文献. 被引用于: §1.
- T. Hasan, A. Bhattacharjee, Md. S. Islam, K. Mubasshir, Y. Li, Y. Kang, M. S. Rahman, 和 R. Shahriyar (2021). XL-sum: 面向44种语言的大规模多语言抽象式摘要。收录于 *计算语言学协会(ACL)发现:ACL-IJCNLP 2021*, 线上, pp. 4693–4703. 外部链接: Link, 文献. 被引用于: §4.1, §4, §6.
- F. Nan, R. Nallapati, Z. Wang, C. N. d. Santos, H. Zhu, D. Zhang, K. McKeown, 和 B. Xiang (2021). 抽象式文本摘要的实体级事实一致性。*arXiv preprint arXiv:2102.09130*. 被引用于: §3.
- J. Pilault, R. Li, S. Subramanian, 和 C. Pal (2020). 基于Transformer语言模型的抽取式和抽象式神经文档摘要。收录于 *2020年自然语言处理实证方法会议(EMNLP)论文集*, pp. 9308–9319. 被引用于: §3.
- Y. Sankarasubramaniam, K. Ramanathan, 和 S. Ghosh (2014). 使用维基百科进行文本摘要。*Information Processing & Management*, 50(3), pp. 443–461. 被引用于: §1.
- J. Zhang, Y. Zhao, M. Saleh, 和 P. Liu (2020). PEGASUS: 使用提取的间隙句子进行抽象式摘要的预训练。收录于 *国际机器学习大会(ICML)*, pp. 11328–11339. 被引用于: §1, §3.

相似文章

基于人类偏好微调GPT-2

OpenAI Blog

OpenAI展示了使用人类偏好反馈对GPT-2(774M参数)进行微调,用于文本续写和摘要任务,风格任务需要5000个标签,摘要任务需要60000个标签,模型达到了86-88%的人类偏好率,但揭示了标注者启发式利用的问题。

通过人类反馈学习总结

OpenAI Blog

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。

从无查询摘要数据集生成查询聚焦摘要数据集

arXiv cs.CL

本文提出了一种基于证据的模型,可从无查询摘要数据集中自动生成查询关键词,从而创建查询聚焦摘要数据集。实验结果表明,使用基于证据的查询生成的摘要与原始查询生成的摘要相比,获得了具有竞争力的ROUGE分数。