MASF:面向抽象文本摘要的多模型自适应选择框架
摘要
提出MASF,一种多模型自适应选择框架,集成多个微调后的Transformer摘要模型并选取最高质量摘要,在CNN/DailyMail上达到88.63%的BERTScore,优于多个大型语言模型。
arXiv:2606.05494v1 公告类型:新
摘要:随着数字文本信息的快速增长,自动文本摘要变得日益重要。本文提出了一种多模型自适应摘要框架(Multi-Model Adaptive Summarization Framework),旨在提高抽象文本摘要的鲁棒性和质量。依赖单一模型往往会导致在不同结构和主题的文章中摘要质量不一致。为解决这一局限,该框架集成了多个基于Transformer的微调摘要模型,并引入了一种自适应选择机制。在该框架中,每个模型独立为同一输入文章生成候选摘要。然后使用同时捕捉词汇相似性和语义相关性的自动评估指标对这些生成的摘要进行评价。基于这些评分,框架选择质量最高的摘要作为最终输出。模型在广泛使用的CNN/DailyMail新闻摘要数据集上进行微调和评估。实验结果表明,所提出的框架在所有比较方法中取得了最高的BERTScore,得分为88.63%。它还优于GPT3-D2、Falcon-7b和Mpt-7b等多个大型语言模型,凸显了其有效性和鲁棒性。这些发现强调了在自适应选择策略中利用多个Transformer模型来提高自动文本摘要系统质量和鲁棒性的有效性。
查看缓存全文
缓存时间: 2026/06/05 08:06
# MASF:一种用于抽象式文本摘要的多模型自适应选择框架 来源:https://arxiv.org/html/2606.05494 ###### 摘要 随着数字文本信息的快速增长,自动文本摘要变得日益重要。本文提出了一种多模型自适应摘要框架,旨在提升抽象式文本摘要的鲁棒性和质量。依赖单一模型往往会导致对不同结构和主题的文章产生不一致的摘要质量。为解决这一局限,所提出的框架集成了多个经过微调的基于Transformer的摘要模型,并引入了一种自适应选择机制。在此框架中,每个模型独立为同一输入文章生成候选摘要。然后,使用自动评估指标对生成的摘要进行评价,这些指标同时捕捉词汇相似性和语义相关性。根据这些得分,框架选择质量最高的摘要作为最终输出。这些模型在广泛使用的CNN/DailyMail新闻摘要数据集上进行微调和评估。实验结果表明,所提出的框架在所有对比方法中取得了最高的BERTScore,得分为88.63%。它还优于GPT3-D2、Falcon-7b和Mpt-7b等多个大型语言模型,凸显了其有效性和鲁棒性。这些发现强调了在自适应选择策略中利用多个基于Transformer的模型,可以有效提升自动文本摘要系统的质量和鲁棒性。 ††出版标识:pubid:979-8-3315-8488-7/26/$31.00 ©2026 IEEE ## I. 引言 数字信息的快速增长导致新闻平台、社交媒体和在线存储库中的文本数据空前增加。因此,高效处理和理解大量文本已成为一项关键挑战。文本摘要已成为一项重要的自然语言处理任务,旨在生成简洁的摘要,同时保留原始内容的核心含义。特别是新闻摘要,在帮助用户快速从长篇文章中获取关键信息方面发挥着重要作用[25 (https://arxiv.org/html/2606.05494#bib.bib1),13 (https://arxiv.org/html/2606.05494#bib.bib2)]。 传统方法主要依赖于抽取式技术,即从源文本中选择信息量最大的句子。这些方法通常遵循一个流程,包括文本预处理、特征提取、句子评分、基础模型使用、句子选择和最终摘要生成。一篇关于抽取式摘要技术的全面综述突出了该领域应用的广泛方法,包括统计、基于规则、模糊逻辑、优化、基于图、基于聚类、机器学习和深度学习方法[25 (https://arxiv.org/html/2606.05494#bib.bib1)]。尽管一些抽取式摘要技术对摘要系统的发展做出了重要贡献,但许多现有综述强调,当前方法仍面临若干挑战,包括在多样化的文章结构和主题上鲁棒性有限,依赖单一模型架构时摘要质量不一致,以及过度依赖单个模型输出,而该输出可能无法始终兼顾词汇和语义质量[25 (https://arxiv.org/html/2606.05494#bib.bib1),12 (https://arxiv.org/html/2606.05494#bib.bib4),3 (https://arxiv.org/html/2606.05494#bib.bib5)]。 Transformer架构因其自注意力机制和并行序列处理能力,能够在CNN/DailyMail等基准数据集上取得优异结果,从而更好地建模文本中的长距离依赖关系[16 (https://arxiv.org/html/2606.05494#bib.bib3),18 (https://arxiv.org/html/2606.05494#bib.bib22)]。类似地,结合光学字符识别和深度学习摘要模型(如LSTM、Bi-LSTM、BERT和T5)的混合框架,用于处理从图像中提取的文本信息[13 (https://arxiv.org/html/2606.05494#bib.bib2)]。尽管取得了这些进展,深度学习模型仍然面临若干局限,包括计算要求高、对训练数据质量敏感,以及依赖可能无法从语义角度充分反映摘要质量的评估指标(如ROUGE)[16 (https://arxiv.org/html/2606.05494#bib.bib3)]。 此外,大型语言模型的出现为文本摘要带来了新的可能性。最近的研究探索了使用多个LLM,包括MPT-7B、Falcon-7B和基于ChatGPT的架构,来生成抽象式摘要[3 (https://arxiv.org/html/2606.05494#bib.bib5)]。尽管这些方法展示了现代摘要系统的灵活性,但也凸显了一个重要局限:大多数现有系统在推理时依赖单一模型,这并不总能生成信息最丰富的摘要。 受这些局限的启发,本研究提出了一个针对CNN/DailyMail数据集的多模型自适应摘要框架。与依赖单一摘要模型的传统方法不同,所提出的方法利用多个基于Transformer的模型为每篇输入文章生成候选摘要。具体而言,使用三种不同的摘要模型来生成备选摘要,并通过自动评估指标评估每个生成的摘要,这些指标衡量词汇、n-gram重叠和语义相似性。然后,系统根据综合评估得分自动选择信息最丰富的摘要。通过集成多个模型和自适应选择机制,与单模型方法相比,所提出的框架旨在提升摘要质量和鲁棒性。该策略使系统能够利用不同模型的优势,同时减轻单个架构的弱点,最终为新闻文章生成更准确、更连贯的摘要。 ## II. 相关工作 自动文本摘要作为一项基本的自然语言处理任务,旨在生成大型文本文档的简洁表示,同时保留关键信息,已得到广泛研究[8 (https://arxiv.org/html/2606.05494#bib.bib27)]。数字文本在新闻文章、科学出版物和社交媒体等领域的快速增长,加剧了对高效摘要系统的需求[5 (https://arxiv.org/html/2606.05494#bib.bib7),24 (https://arxiv.org/html/2606.05494#bib.bib8)]。该领域的早期研究主要集中在抽取式摘要技术上,即直接从原始文档中选择重要句子形成摘要。综合综述分析了摘要方法的发展演变,突出了摘要流程的主要组成部分,包括预处理、特征提取、句子评分和摘要生成[25 (https://arxiv.org/html/2606.05494#bib.bib1),17 (https://arxiv.org/html/2606.05494#bib.bib6),6 (https://arxiv.org/html/2606.05494#bib.bib24)]。这些研究还强调了摘要任务日益增长的复杂性,特别是在多文档、多语言和多模态内容出现的情况下,这继续对现有系统构成挑战[25 (https://arxiv.org/html/2606.05494#bib.bib1)]。此外,一些综述探讨了抽象式摘要模型、数据集和评估方法的进展,确定了广泛使用的基准(如CNN/DailyMail数据集)和评估指标(包括基于ROUGE的度量)[19 (https://arxiv.org/html/2606.05494#bib.bib19),2 (https://arxiv.org/html/2606.05494#bib.bib23)]。这些分析共同提供了对文本摘要研究现状的全面理解,并突出了若干尚未解决的挑战。 传统的抽取式摘要方法采用了多种统计、基于图和特征驱动技术来识别文档中的显著句子。基于图的模型得到了广泛探索,其中句子重要性通过句子之间的相似性关系来确定。例如,利用句子中心性和语义相似性构建捕捉文本单元之间关系的图,从而实现更具信息性的句子选择[9 (https://arxiv.org/html/2606.05494#bib.bib13)]。类似地,提出了基于排序的方法,结合多个句子级特征(如主题信息、语义表示、关键词和位置重要性)来确定文档中句子的显著性[10 (https://arxiv.org/html/2606.05494#bib.bib12)]。其他研究通过整合词嵌入和加权机制来改进TextRank等经典算法,以提升句子表示和摘要质量[14 (https://arxiv.org/html/2606.05494#bib.bib15)]。此外,无监督摘要方法探索了聚类和主题建模策略,以减少主题偏差,并生成更能代表文档子主题的摘要[20 (https://arxiv.org/html/2606.05494#bib.bib20)]。尽管抽取式方法有效且计算高效,但它们常常存在冗余问题,且缺乏生成连贯释义摘要的能力,这限制了它们与人工编写摘要匹敌的能力。 为了解决抽取式技术的局限性,研究越来越多地转向使用神经网络架构的抽象式摘要。基于循环神经网络和长短期记忆网络的序列到序列模型被广泛用于生成在保留原意的同时改写源文本的摘要[11 (https://arxiv.org/html/2606.05494#bib.bib16)]。这些模型通常采用编码器-解码器架构和注意力机制来捕捉词与句之间的上下文依赖关系。通过引入双向编码器、堆叠架构和增强序列表示及摘要性能的注意力机制,取得了进一步的改进[11 (https://arxiv.org/html/2606.05494#bib.bib16),1 (https://arxiv.org/html/2606.05494#bib.bib26)]。此外,提出了话语感知的神经模型,以捕捉文档中话语单元之间的长距离依赖关系和结构关系,通过建模文档级话语结构来提升抽取式摘要的质量[23 (https://arxiv.org/html/2606.05494#bib.bib10)]。 最近,基于Transformer的架构和预训练语言模型显著提升了文本摘要系统的性能。Transformer模型受益于自注意力机制,使其能够比早期神经架构更有效地捕捉长距离依赖关系和上下文关系[16 (https://arxiv.org/html/2606.05494#bib.bib3)]。预训练模型如PEGASUS-xsum、BART和T5通过大规模预训练后跟任务特定微调,在基准数据集上表现出强劲性能[12 (https://arxiv.org/html/2606.05494#bib.bib4),15 (https://arxiv.org/html/2606.05494#bib.bib18)]。然而,微调大型预训练模型常常带来与过拟合和高计算成本相关的挑战,这促使研究优化技术和模型适应策略以提升泛化性能[12 (https://arxiv.org/html/2606.05494#bib.bib4)]。此外,研究探索了抽取式摘要的替代问题形式化,例如将摘要建模为源文档与候选摘要之间的语义匹配任务,在CNN/DailyMail数据集上取得了有竞争力的性能[26 (https://arxiv.org/html/2606.05494#bib.bib17)]。其他研究还考察了结合光学字符识别与深度学习模型的多模态摘要框架,以总结从图像中提取的文本信息,扩展了摘要应用的范围[13 (https://arxiv.org/html/2606.05494#bib.bib2)]。 除了通用领域摘要,LLM也被应用于临床文本摘要等专业领域,其中经过调整的模型在某些任务上表现出与人类专家相当或更优的性能[21 (https://arxiv.org/html/2606.05494#bib.bib11)]。尽管取得了这些进展,基于深度学习和LLM的摘要系统仍然面临若干挑战,包括保持事实一致性、确保语义正确性以及可靠地评估生成的摘要[15 (https://arxiv.org/html/2606.05494#bib.bib18)]。这些局限促使探索利用多个摘要模型优势的替代框架,以提升整体摘要性能。 表 I:CNN/DailyMail数据集示例样本。 | 文章 | 亮点 | |---|---| | 利物浦的目标内托也受到巴黎圣日耳曼和西班牙俱乐部的青睐,布伦丹·罗杰斯面临激烈竞争才能签下这位佛罗伦萨门将,据巴西人的经纪人斯特凡诺·卡斯塔尼亚称。红军在本赛季早些时候西蒙·米尼奥莱被撤下首发时,曾与这位25岁球员(合同六月到期)联系在一起。一月份内托的转会并未成行,但这位前巴拉纳竞技门将似乎肯定会在夏季离开这家佛罗伦萨俱乐部。据报道内托已与意甲冠军尤文图斯达成口头协议,赛季末加盟,但他的经纪人透露尚未就他的未来做出决定。卡斯塔尼亚声称,当夏季转会窗口重新开启时,内托将可以选择欧洲顶级俱乐部,包括布伦丹·罗杰斯的球队。'有许多欧洲俱乐部对内托感兴趣,例如利物浦和巴黎圣日耳曼,'斯特凡诺·卡斯塔尼亚引用加泽塔电视台的话说。'在西班牙也有一些顶级俱乐部在关注他。皇家马德里?我们会看看。'我们还没有做出最终决定,但无论如何他不会接受再次租借到别处。'内托曾代表巴西参加伦敦2012奥运会,但未入选成年队,国家队教练邓加警告他不要加盟作为二号门将的俱乐部。内托于2011年从巴拉纳竞技加盟佛罗伦萨,并在过去两个赛季确立了一号门将的地位。 | 佛罗伦萨门将内托与利物浦和阿森纳传出绯闻。内托于2011年从巴西俱乐部巴拉纳竞技加盟佛罗伦萨。据他的经纪人称,巴黎圣日耳曼和西班牙俱乐部也对他感兴趣。点击这里获取最新的利物浦新闻。 | ## III. 数据集 在这项工作中,我们使用了CNN/DailyMail新闻摘要数据集,这是一个广泛用于监督式文本摘要任务的基准数据集。该数据集包含从CNN和Daily Mail网站收集的新闻文章,每篇文章附有一套人工撰写的要点作为参考摘要。在摘要设置中,这些要点句子被拼接起来形成每篇文章对应的目标摘要。[22 (https://arxiv.org/html/2606.05494#bib.bib21)] 该数据集包含超过30万个由专业记者撰写的文章-摘要对。每篇文章
相似文章
通过人类反馈学习总结
OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。
通过偏好学习从多个不完美指标优化摘要的事实一致性
本文介绍了一种通过偏好学习聚合多个弱指标的分数来提高文本摘要事实一致性的方法,在各种语言模型上实现了一致的事实性提升。
LaMSUM: 通过LLM引导的提取式摘要放大针对骚扰的声音
LaMSUM是一个新颖的多层次框架,使用LLM为公民举报平台生成大量骚扰事件报告的提取式摘要。该方法优于最先进的提取式摘要方法,并解决了有限的LLM上下文窗口和代码混合语言处理等挑战。
利用更优词元加速学习:面向专业文本摘要的参数高效词表适配
本文提出了一种针对专业领域LLM文本摘要的参数高效词表适配方法,通过扩充预训练分词器中的领域专用词元并选择性替换训练不足的词元,将训练时间减少35-55%,参数数量减少高达37%。
使用语法与语义上下文评估汇总(SSAS)的情感预测一致性分析
本论文提出了SSAS(语法与语义上下文评估汇总)框架,旨在通过分层分类和迭代汇总来减少噪声和方差,提高基于大语言模型的情感预测的一致性。在三个行业标准数据集上的实证评估显示,数据质量和企业决策可靠性可提升30%。