Attention Expansion: Enhancing Keyphrase Extraction from Long Documents with Attention-Augmented Contextualized Embeddings

arXiv cs.CL 论文

摘要

本文提出了一种注意力扩展机制,通过使用上下文外信息增强PLM token表示,提升长文档的关键词提取性能,在不需全文档注意力或昂贵LLM推理的情况下,持续优于最先进模型。

arXiv:2606.10716v1 公告类型:新 摘要:预训练语言模型(PLMs)凭借生成丰富上下文表示的能力,在关键词提取(KPE)任务上取得了强劲性能。然而,长文档KPE仍具挑战性,因为在大多数PLMs有限的上下文窗口内,关键性关键词证据可能分散在远距离文档段落中,无法被共同捕获。尽管长上下文大型语言模型(LLMs)能处理更广泛的文本上下文,但其计算成本限制了它们在高吞吐量KPE中的实用性。为克服此局限,我们提出了一种注意力扩展机制,利用预训练词嵌入从周围上下文外块中增强PLM token表示。该机制扩展了基于PLM的KPE模型的有效上下文范围,无需全文档注意力或昂贵的LLM推理。我们在五种PLM骨干(包括通用型、科学型、任务专用型和长上下文编码器)上评估了我们的方法,采用了两种训练范式和来自科学及新闻领域的五个基准语料库。实验结果表明,注意力扩展在所有评估设置中持续提升KPE性能,超越了最先进模型,并在F1分数上取得了显著改进。这些改进延伸至领域特定、任务专用和原生长上下文模型,表明所提机制提供了互补信息,而不仅仅是补偿有限的输入长度。这些结果确立了注意力扩展作为长文档KPE的高效且有效的策略。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:12

# 利用注意力增强的上下文嵌入提升长文档关键短语抽取

来源:https://arxiv.org/html/2606.10716

罗伯托·马丁内斯-克鲁兹¹,²,∗,阿尔瓦罗·J·洛佩斯-洛佩兹¹,何塞·波特拉¹  
¹马德里科米利亚斯宗座大学,ICAI工程学院,技术研究所,西班牙  
²DD-AIM,高级机器学习研究员  
∗通讯作者:[email protected]  
贡献作者:[email protected]; [email protected]

###### 摘要

预训练语言模型(PLMs)凭借其生成丰富上下文表征的能力,在关键短语抽取(KPE)中取得了强劲表现。然而,长文档KPE仍然具有挑战性,因为显著的关键短语证据可能分散在文档的不同部分,而大多数PLM有限的上下文窗口无法同时捕获这些分散证据。尽管长上下文大语言模型(LLMs)能够处理更广泛的文本上下文,但其计算成本限制了它们在高效、高通量KPE中的实用性。为克服这一限制,我们提出了一种注意力扩展机制,该机制利用预训练词嵌入,将相邻上下文外块的信息增强到PLM的令牌表征中。所提出的机制扩展了基于PLM的KPE模型的有效上下文范围,无需全文档注意力或昂贵的LLM推理。我们使用两种训练范式(SemEval-2010和LDKP3K)以及五个来自科学和新闻领域的基准语料库,在五个PLM骨干网络(包括通用型、科学型、任务专用型和长上下文编码器)上评估了我们的方法。实验结果表明,注意力扩展在所有评估设置中均能持续提升KPE性能,超越当前最先进模型,并在F1分数上取得显著提升。这些改进扩展到了领域专用、任务专用及原生长上下文模型,表明所提机制提供了互补信息,而不仅仅是弥补有限输入长度的不足。这些结果确立了注意力扩展作为长文档KPE的一种高效且有效的策略。

## 1 引言

关键短语抽取(KPE)旨在识别最能捕捉文档主题的短语。作为一种紧凑的文档理解形式,KPE支持广泛的后续应用,包括文档分类[18](https://arxiv.org/html/2606.10716#bib.bib28)、聚类[15](https://arxiv.org/html/2606.10716#bib.bib69)、摘要[42](https://arxiv.org/html/2606.10716#bib.bib70),55(https://arxiv.org/html/2606.10716#bib.bib71)、索引[14](https://arxiv.org/html/2606.10716#bib.bib107)、查询扩展[47](https://arxiv.org/html/2606.10716#bib.bib108)以及交互式文档检索[20](https://arxiv.org/html/2606.10716#bib.bib68)。该任务常被描述为关键短语化[34](https://arxiv.org/html/2606.10716#bib.bib162),可被视为一种极端形式的抽取式摘要,其中一小部分短语必须保留文档的核心内容。

对于长文档而言,稳健KPE的需求尤为迫切。在科学、法律、医学和金融等领域,重要信息往往分布在多页文本中,一个术语的重要性只有在同时考虑来自不同部分的关联证据时才能显现。许多现有的KPE流程部分规避了这一困难,它们依赖简短的摘要或文摘,尤其是在科学语料中。虽然在某些基准设置中有效,但这种假设在现实场景中具有局限性——摘要可能缺失、不完整或信息量不足。此外,重要的抽取式关键短语可能出现在全文核心位置,却不在文摘中。因此,在短输入上表现良好的方法并不一定适用于长文档KPE。

KPE方法通常分为无监督和监督方法。无监督方法通常使用统计或图基准则对候选短语进行排序[37](https://arxiv.org/html/2606.10716#bib.bib164),7(https://arxiv.org/html/2606.10716#bib.bib163)。相反,监督方法将KPE形式化为令牌分类问题,通过手工特征[16](https://arxiv.org/html/2606.10716#bib.bib177)、静态词嵌入(如word2vec和GloVe)[36](https://arxiv.org/html/2606.10716#bib.bib16),41(https://arxiv.org/html/2606.10716#bib.bib172)或来自预训练语言模型(PLMs,如BERT)[9](https://arxiv.org/html/2606.10716#bib.bib25),44(https://arxiv.org/html/2606.10716#bib.bib15)的上下文表征来表示令牌。在这些方法中,基于PLM的方法尤为有效,因为它们提供上下文敏感的令牌表征,可直接微调用于序列标注。

尽管取得了成功,基于PLM的KPE模型仍然受限于有限的上下文长度。在标准的长文档设置中,输入被分割成适应模型最大序列长度的窗口,每个窗口独立处理。这种策略保留了局部上下文,但阻止了模型直接表示跨越多个窗口的依赖关系。这种长距离依赖对于识别长文本中的关键短语往往至关重要,因为主题显著性可能依赖于重复提及、延迟定义或文档中相隔较远概念之间的关系。因此,当前最先进的KPE系统——无论是基于微调PLM,还是基于消费PLM嵌入的架构[26](https://arxiv.org/html/2606.10716#bib.bib14),44(https://arxiv.org/html/2606.10716#bib.bib15),39(https://arxiv.org/html/2606.10716#bib.bib181)——都继承了一个根本性限制:它们受益于上下文表征,但仍受限于底层模型的上下文窗口。

Transformer的架构扩展,如Longformer[4](https://arxiv.org/html/2606.10716#bib.bib27)和BigBird[53](https://arxiv.org/html/2606.10716#bib.bib165),以及更近期仅编码器模型如ModernBERT[52](https://arxiv.org/html/2606.10716#bib.bib208),进一步扩展了原生上下文长度,而长上下文LLMs则将其推得更远。这些发展证实了更宽上下文对语言理解的价值,但更宽的上下文并非免费:它增加了计算成本、内存使用和部署复杂度。在KPE通常部署的高吞吐量场景中——大规模索引、检索增强生成或下游推理的文档预处理——用长上下文LLM替换紧凑专用模型很少是最优选择。因此,专用KPE模型仍具有明确的实践角色,这与卡尼曼“快与慢”框架[21](https://arxiv.org/html/2606.10716#bib.bib204)中的更广泛论点一致:快速高效的任务专用组件应补充而非被更大的通用推理器取代。最近的哲学分析做出了兼容的区分,认为AI系统的智能行为可以在不归因于类人*理解*的情况下解释,作为任务求解的一种机械形式[6](https://arxiv.org/html/2606.10716#bib.bib205);这强化了改进紧凑专用模型表征的实践动机,而非将更大的通用模型视为实现更好KPE的唯一途径。我们要解决的问题是:如何在无需付出全长上下文注意力或LLM推理成本的前提下,让这类专用模型访问长文档证据。

为此,我们提出了一种用于基于PLM的KPE的*注意力扩展*机制。该机制利用从上下文外文档块中提取的信息,增强PLM生成的标准上下文表征。每个周围块通过预训练词嵌入(PWE)序列表示,提供位于PLM当前窗口之外的文档区域的紧凑词汇摘要。然后,一个交叉注意力层允许每个上下文内PLM令牌查询这些上下文外PWE表示,检索并聚合原本不可达的证据。得到的令牌表征结合了PLM丰富的局部上下文和从相邻块中提取的更广泛文档级证据,生成增强的嵌入,随后输入到序列标注分类器。

这种设计在不扩展PLM本身的情况下扩展了PLM的有效上下文。由于周围块仅通过预训练词嵌入编码,而非通过二次Transformer前向传递,注意力扩展避免了全长上下文注意力的二次代价和LLM调用的推理成本。参数增长受限于静态嵌入维度,每个令牌的额外计算与关注的上下文外位置数量成线性关系,该机制可插入任何暴露令牌级隐状态的编码器骨干。因此,注意力扩展非常适用于计算效率至关重要的场景,并且即使对于已经支持更输入的编码器(如ModernBERT)也仍然有用:通过提供超越PLM预训练关注范围的互补词汇证据,该机制持续改进表示。

注意力扩展与现有的将更广泛文档信息纳入KPE模型的方法互补。基于图的文档表示[33](https://arxiv.org/html/2606.10716#bib.bib194)贡献了全局结构信号,而最近的长文档KPE方法如LongKey[1](https://arxiv.org/html/2606.10716#bib.bib217)和MAPEX[54](https://arxiv.org/html/2606.10716#bib.bib221)通过块级池化或多智能体管道聚合证据。这些方法通常在PLM*外部*组合信号,即在上下文嵌入已经生成之后。相比之下,注意力扩展在上下文内PLM嵌入和上下文外词汇表示之间引入了一个显式的基于注意力的桥梁,将长距离证据集成到令牌表示*内部*。因此,这两类方法可以结合。

本文的主要贡献如下:

- •我们引入了一种注意力扩展机制,通过从上下文内令牌表征到周围上下文外块的预训练词嵌入的交叉注意力,增强基于PLM的KPE,扩展模型的有效上下文,无需全长上下文注意力或LLM推理。
- •我们表明,注意力扩展以参数轻量且计算高效的方式丰富了PLM令牌表征,参数增长受限于静态嵌入维度,且无需对输入进行额外的全注意力传递,使其适用于高通量KPE流程。
- •我们提供了广泛的实证评估,涵盖五个编码器骨干网络(DistilBERT、SciBERT、KBIR、DeBERTa-v3和ModernBERT)、两种训练范式(SemEval-2010和LDKP3K)以及五个来自科学和新闻领域的基准语料库。注意力扩展持续提升KPE性能,优于强劲基线,且其益处扩展到领域专用和原生长上下文编码器,表明该机制提供了互补信息,而不仅仅是弥补有限输入长度。

## 2 相关工作

### 2.1 关键短语抽取方法

关键短语抽取(KPE)传统上通过无监督排序和监督预测进行研究。无监督系统首先识别候选短语(通常使用词汇或词性模式),然后根据统计、位置、主题或图基显著性对候选短语进行排序[16](https://arxiv.org/html/2606.10716#bib.bib177)。图排序方法尤其具有影响力:TextRank使用受PageRank启发的过程对共现图中的词进行排序[35](https://arxiv.org/html/2606.10716#bib.bib2),而TopicRank在排序主题代表之前将候选短语聚类为主题[8](https://arxiv.org/html/2606.10716#bib.bib3)。后续分析考察了中心性选择如何影响基于图的抽取[7](https://arxiv.org/html/2606.10716#bib.bib163)。分布式表示后来通过测量短语与其文档或主题之间的语义相似性丰富了这类方法[51](https://arxiv.org/html/2606.10716#bib.bib182),29(https://arxiv.org/html/2606.10716#bib.bib4),30(https://arxiv.org/html/2606.10716#bib.bib187),5(https://arxiv.org/html/2606.10716#bib.bib183)。最近,上下文嵌入和提示支持无监督排序而无需任务特定标签:PatternRank结合词性模式和PLM表示[46](https://arxiv.org/html/2606.10716#bib.bib189),PromptRank使用提示从预训练模型中引出短语相关性[25](https://arxiv.org/html/2606.10716#bib.bib188)。这些方法在无标注或需要领域迁移时仍具有吸引力。

当有标注数据可用时,KPE可以转而视为跨度识别或序列标注。早期的监督方法依赖手工的词汇、句法和位置特征;使用条件随机场建模令牌序列使得能够利用相邻标签之间的关系,而非独立分类候选[13](https://arxiv.org/html/2606.10716#bib.bib8)。神经变体用预训练词嵌入和循环上下文取代了许多特征工程。对于科学文档,使用分布式词表示的BiLSTM-CRF模型展示了联合捕获上下文证据和一致短语边界的好处[2](https://arxiv.org/html/2606.10716#bib.bib9),40(https://arxiv.org/html/2606.10716#bib.bib180)。这条线与本文的抽取式设置高度一致,其中BIO标注器预测源文档中出现的短语。

Transformer和预训练语言模型(PLMs)通过生成基于周围文本的令牌表示,显著增强了序列标注KPE。Transformer标注器如TransKP和TNT-KID开发了面向任务的架构用于关键词识别[43](https://arxiv.org/html/2606.10716#bib.bib10),31(https://arxiv.org/html/2606.10716#bib.bib11)。Sahrawat等人表明,上下文PLM嵌入结合序列标注层改善了科学KPE,其中领域自适应表示对于科学语言尤为有用[44](https://arxiv.org/html/2606.10716#bib.bib15)。SciBERT类似地展示了在科学语料上预训练的价值[3](https://arxiv.org/html/2606.10716#bib.bib26),而中间任务迁移已被研究用于科学关键短语识别和分类[39](https://arxiv.org/html/2606.10716#bib.bib181)。KBIR进一步引入了明确建模关键短语边界和替换的预训练目标,生成了用于KPE的任务专用编码器[26](https://arxiv.org/html/2606.10716#bib.bib14)。综合来看,这些结果确立了上下文令牌表示作为强监督KPE系统的核心要素。然而,标准编码器产生的表示受限于固定上下文窗口,对于需要跨多个文本块综合证据的长文档构成瓶颈——这是下一小节关注的问题。

相似文章

Lighthouse Attention(11分钟阅读)

TLDR AI

Lighthouse Attention是一种基于选择的分层注意力机制,通过在前向+反向传播中实现约17倍的速度提升(在512K上下文下),并在98K上下文中实现1.4–1.7倍的端到端加速,从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。

LongAct:利用内在激活模式进行长上下文强化学习

Hugging Face Daily Papers

LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。