Divide-Prompt-Refine：一种无需训练、结构感知的生物医学摘要生成框架

arXiv cs.CL 2026/05/21 04:00 论文

biomedical-abstract-generation zero-shot structure-aware llm-summarization low-resource nlp training-free

摘要

DPR-BAG 是一种无需训练、零样本的框架，通过将全文分解为修辞层面、使用 LLM 对每个层面进行摘要并精炼以提高连贯性，从而生成连贯的生物医学摘要，在保持事实一致性的同时，新颖性优于基线方法。

arXiv:2605.20628v1 公告类型：新摘要：生物医学摘要在下游自然语言处理应用中扮演着关键角色，例如信息检索、生物文献管理和生物医学知识发现。然而，相当数量的生物医学文章没有摘要，这降低了这些文章在下游任务中的实用性。我们提出了 DPR-BAG（Divide, Prompt, and Refine for Biomedical Abstract Generation，即分解、提示与精炼用于生物医学摘要生成），这是一种无需训练、零样本的框架，能够为拥有全文但缺少摘要的生物医学文章生成连贯且基于事实的摘要。DPR-BAG 将全文文档按照背景-目标-方法-结果-结论（BOMRC）模式分解为结构化的修辞层面，对每个层面进行基于 LLM 的并行摘要，并应用最终精炼阶段以恢复全局话语连贯性。在 PMC-MAD（一个包含 46,309 篇生物医学文章的分布对齐数据集）上，DPR-BAG 在保持事实一致性的同时，相较于强抽取式基线和微调基线提升了摘要的新颖性。我们的消融研究揭示了一个反直觉的发现：增加提示复杂度或显式注入实体级指导可能会降低事实对齐度，这突出了受控提示策略的重要性。这些发现彰显了无需训练、结构感知的框架在低资源场景下进行可扩展生物医学摘要生成的潜力。我们的数据和代码可在 https://huggingface.co/datasets/pmc-mad/PMC-MAD 和 https://github.com/ScienceNLP-Lab/MultiTagger-v2/tree/main/DPR-BAG 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:34

# Divide-Prompt-Refine：一种无需训练、结构感知的生物医学摘要生成框架

**来源：** https://arxiv.org/html/2605.20628

Sylvey Lin¹, Joe Menke¹, Shufan Ming¹, Dongin Nam¹, Neil Smalheiser¹,², Halil Kilicoglu¹

¹ 伊利诺伊大学厄巴纳-香槟分校信息科学学院，香槟，IL  
² 伊利诺伊大学芝加哥分校医学院精神病学系，芝加哥，IL  

**通讯作者：** [email protected] (https://arxiv.org/html/2605.20628v1/mailto:[email protected])

###### 摘要

生物医学摘要在下游NLP应用中扮演着关键角色，例如信息检索、生物注释和生物医学知识发现。然而，相当数量的生物医学文章缺少摘要，这降低了这些文章在下游任务中的可用性。我们提出DPR-BAG（Divide, Prompt, and Refine for Biomedical Abstract Generation），一种无需训练、零样本的框架，用于为拥有全文但缺乏摘要的生物医学文章生成连贯且事实准确的摘要。DPR-BAG将全文文档分解为遵循背景-目标-方法-结果-结论（BOMRC）模式的结构化修辞层面，对每个层面进行并行的大语言模型（LLM）摘要生成，并应用最终的润色阶段以恢复全局话语连贯性。在PMC-MAD（一个包含46,309篇生物医学文章、分布对齐的数据集）上，DPR-BAG在保持事实一致性的同时，相比于强抽取式和微调基线模型，提升了摘要的新颖性。我们的消融实验揭示了一个反直觉的发现：增加提示复杂度或显式注入实体级指导可能会降低事实对齐度，凸显了受控提示策略的重要性。这些发现强调了在低资源环境下，基于无需训练、结构感知的框架进行可扩展生物医学摘要生成的潜力。我们的数据和代码可在 https://huggingface.co/datasets/pmc-mad/PMC-MAD 和 https://github.com/ScienceNLP-Lab/MultiTagger-v2/tree/main/DPR-BAG 获取。

---

# Divide-Prompt-Refine：一种无需训练、结构感知的生物医学摘要生成框架

Sylvey Lin¹, Joe Menke¹, Shufan Ming¹, Dongin Nam¹, Neil Smalheiser¹,², Halil Kilicoglu¹

¹ 伊利诺伊大学厄巴纳-香槟分校信息科学学院，香槟，IL  
² 伊利诺伊大学芝加哥分校医学院精神病学系，芝加哥，IL  

**通讯作者：** [email protected] (https://arxiv.org/html/2605.20628v1/mailto:[email protected])

## 1. 引言

许多生物医学NLP任务高度依赖摘要，因为摘要易于获取且信息密度高。摘要是作者撰写的核心科学发现总结，使其在下游应用中成为全文文章的有效替代品。例如，Luo等人（2022年 (https://arxiv.org/html/2605.20628#bib.bib24)）表明，围绕标题-摘要结构设计的预训练任务能改善生物医学信息检索；Wiegers等人（2025年 (https://arxiv.org/html/2605.20628#bib.bib26)）将摘要用作生物注释的初始数据源。除了内容之外，摘要的结构化组织也对下游任务有益：Ueda等人（2021年 (https://arxiv.org/html/2605.20628#bib.bib25)）利用摘要层面的结构来优化检索；PubMedQA（Jin等人，2019年 (https://arxiv.org/html/2605.20628#bib.bib28)）基于结构化摘要以支持高保真度的生物医学知识发现。此外，在某些情况下，单独的摘要可以作为比全文更强的训练信号（Gu等人，2021年 (https://arxiv.org/html/2605.20628#bib.bib34)）。

然而，相当一部分生物医学文章缺少摘要，这给这些任务造成了瓶颈。截至2026年4月，PubMed中40,414,072篇文章中有11,603,796篇（约29%）缺少摘要，尽管总体比例在下降，但这一数量仍在持续上升，这主要是由病例报告、社论和信件等出版物类型的增长所驱动。这些出版物类型具有重要的科学价值。例如，Gurulingappa等人（2012年 (https://arxiv.org/html/2605.20628#bib.bib3)）和Fan等人（2020年 (https://arxiv.org/html/2605.20628#bib.bib33)）利用病例报告进行药物不良事件检测；Magnet和Carnet（2006年 (https://arxiv.org/html/2605.20628#bib.bib1)）以及Nuzzo（2021年 (https://arxiv.org/html/2605.20628#bib.bib35)）评估信件以描述发表后的科学讨论特征，包括批评模式、分歧的修辞特征以及作者趋势；Waaijer等人（2011年 (https://arxiv.org/html/2605.20628#bib.bib36)）以及Ioannidis和Schippers（2025年 (https://arxiv.org/html/2605.20628#bib.bib2)）分析社论以研究期刊如何塑造科学话语，包括主题分布、政策问题的框架以及系统性偏差的存在。

这些文章缺少摘要，催生了生物医学摘要生成（BAG）任务，旨在从生物医学全文文章中自动生成摘要。虽然BAG与标准文档摘要相关，但在重要方面有所不同。它必须遵循科学报告惯例，包括以结构化方式呈现方法、结果和结论，同时保留细粒度的生物医学实体、定量发现以及明确的论证关系——这些通常对科学解释至关重要。早期的BAG工作由Chachra等人（2016年 (https://arxiv.org/html/2605.20628#bib.bib37)）开展，采用了抽取式句子选择，这可能导致连贯性碎片化和词汇流畅性差。此外，由于生物医学全文文章通常超过标准模型的上下文限制，BAG本质上是一个长上下文任务，因此容易受到抽取偏差和事实准确性问题的困扰。例如，Wang等人（2025年 (https://arxiv.org/html/2605.20628#bib.bib13)）表明，即使是GPT-4等最先进的模型，在处理未经分解的科学全文时也会出现幻觉和信息遗漏，这突显了BAG任务所需的长文档处理中固有的准确性风险。除了准确性风险，最近的分析还揭示，当被迫处理复杂的长文本时，即使是LongT5等专门模型也表现出强烈的抽取偏差，依赖简单的启发式方法直接复制原文片段，而不是综合信息（Chernyshev和Dobrov，2024年 (https://arxiv.org/html/2605.20628#bib.bib14)）。因此，这些模型可能面临与传统抽取式摘要器相同的核心问题：生成碎片化文本，缺乏人类撰写摘要的自然流畅性和连贯性（Giarelis等人，2023年 (https://arxiv.org/html/2605.20628#bib.bib30)）。

为了解决这些局限性，我们提出了“分治-提示-润色”生物医学文章生成（DPR-BAG）框架。借鉴先前的研究成果——分治策略能减少LLM中的中间错误（Zhang等人，2025年 (https://arxiv.org/html/2605.20628#bib.bib11)），DPR-BAG根据修辞结构将全文文章分解，对每个得到的层面进行并行摘要生成，并应用一个模块化的润色阶段来协调碎片化输出并恢复话语连贯性。我们针对六个修辞层面：背景、目标、方法、结果、结论（BOMRC）以及其他。采用BOMRC是因为它代表了PubMed 200k RCT数据集中经过验证的标准话语结构（Dernoncourt和Lee，2017年 (https://arxiv.org/html/2605.20628#bib.bib44)），而“其他”层面则保留任何未分类的内容。基于此设计，我们聚焦于三个研究问题：

1. 我们能否为BAG任务开发一种无需训练的方法？
2. 与朴素提示相比，对全文文章进行结构感知分解是否能提高生成摘要的质量？
3. 增加提示复杂度（从详细指令到实体指导）能在多大程度上改善生成质量？

我们的主要贡献如下：

1. 我们提出了DPR-BAG，一种用于BAG的无需训练、结构感知的方法。
2. 我们发布了一个包含超过46K篇生物医学全文出版物的数据集，用于BAG任务。
3. 我们将DPR-BAG与强抽取式和生成式基线进行了比较。
4. 我们系统评估了DPR-BAG中各种提示和分割策略以及实体指导的效果。

请参见图注。

图1：用于生物医学摘要生成的DPR-BAG框架概览。

## 2. 数据集

我们基于1987年至2023年的PubMed出版物构建了一个BAG数据集。为确保样本的代表性，我们首先使用改编自先前工作的PT查询（Menke等人，2024年 (https://arxiv.org/html/2605.20628#bib.bib38)）计算了缺少摘要的文章的出版物类型分布。然后，我们根据该分布进行分层抽样，从PubMed Central（PMC）开放获取子集中检索了130,000个候选XML文件，确保采样文章反映了缺少摘要的PubMed记录的出版物类型分布。

对于数据处理，我们采用了来自长摘要框架（Long-summarization framework）的提取管道（Cohan等人，2018年 (https://arxiv.org/html/2605.20628#bib.bib23)），从原始XML文件中解析结构化章节和摘要。在过滤掉无法解析或缺少可提取摘要的记录后，最终数据集（以下简称PMC-MAD，即Missing-Abstract Distribution-aligned PMC）包含46,309篇文章。

## 3. 方法

DPR-BAG采用模块化管道，旨在从生物医学全文文章中生成结构感知的摘要（图1 (https://arxiv.org/html/2605.20628#S1.F1)）。该过程首先基于BOMRC将文档分解为五个不同的层面，外加一个“其他”层面用于未分类内容。对于每个层面，我们进行并行的基于LLM的摘要生成，可以选择性地辅以实体指导扩展。然后将得到的各层面摘要拼接起来，传递给最终的基于LLM的润色阶段，以恢复话语连贯性。DPR-BAG不需要针对特定任务的训练或微调；所有组件均使用预训练的现成模型以零样本方式运行。

### 3.1 任务形式化

给定一篇生物医学全文文章 \( D = (p_1, p_2, ..., p_n) \)，其中每个 \( p_i \) 表示一个段落，目标是生成一个摘要 \( A \)，覆盖预定义的修辞层面集合 \( \mathcal{F} = \{ \text{Background, Objectives, Methods, Results, Conclusions, Others} \} \)（BOMRC+）。我们将此重新表述为一个以层面为条件的摘要问题，模型分别为每个修辞层面生成内容。这种分解允许模型独立处理每个修辞组件并捕获话语结构。具体来说，文档被划分为 \( K=6 \) 个特定于层面的子文档 \( \{ D_{f_k} \}_{k=1}^K \)，其中每个 \( D_{f_k} \) 聚合了修辞上与层面 \( f_k \) 对齐的段落。每个子文档被独立摘要以生成一个层面摘要 \( \hat{a}_{f_k} \)，拼接结果 \( \hat{A} = \bigoplus_{k=1}^K \hat{a}_{f_k} \) 随后被润色为最终摘要 \( R(\hat{A}) = A \)。源文档中不存在的层面生成空字符串。

### 3.2 文档分割

为了将全文文档分割成语义上连贯的文本，我们使用LLM-SSC（Lan等人，2024年 (https://arxiv.org/html/2605.20628#bib.bib18)），这是一个基于LLM的序列句子分类框架，通过上下文学习为句子分配修辞标签（BOMRC）（性能细节见附录E (https://arxiv.org/html/2605.20628#A5)）。虽然该模型是在结构化摘要上训练的，但我们假设潜在的修辞意图（例如，方法描述 vs. 结果报告）在全文段落中保持一致。具体而言，我们利用段落首句的角色——通常作为主题句概括该段落的功能目的。我们将每个段落首句的标签指定为该段落的全局标签，然后连接所有具有相同标签的段落，形成输入文档层面。我们将此方法称为首句标签化（FS）策略，并在下文通过实验与朴素分割（NS）和章节标题（SH）消融变体进行对比验证。

##### 朴素分割方法（NS）：
此方法将段落分配到六个部分，力求大致均匀分布，同时保持段落的完整性。包含此基线使我们能够评估语义感知的分割（例如，LLM-SSC）是否比纯粹基于结构、基于长度的分区更有优势。

##### 章节标题规范化（SH）：
此策略作为一个粗粒度的语义基线。利用Lin等人（2025年 (https://arxiv.org/html/2605.20628#bib.bib17)）开发的Transformer模型，该方法将现有的章节标题分类为标准BOMRC类别，并连接同一层面内的段落。此比较有助于确定LLM-SSC中使用的细粒度句子级分类是否相比于简单的章节级组织提供了额外的效用。

### 3.3 并行摘要

在文档被划分为六个文档层面（BOMRC和其他）之后，每个层面被输入LLM以生成相应的层面摘要；源文档中不存在的层面表示为空摘要。这些摘要随后被拼接以形成草稿摘要。以下小节详细介绍了摘要过程中使用的提示策略和可选的实体指导扩展。

#### 3.3.1 提示策略

为了研究提示复杂度对生成质量的影响，我们采用基本简洁（BC）提示策略作为基线，并通过评估另外两个更详细的变体（详细指令（DI）和结构化指令（SI））来消融提示复杂度。完整的提示模板在附录A (https://arxiv.org/html/2605.20628#A1)中描述。

##### 基本简洁提示（BC）：
BC是一种最小提示策略，为每个修辞层面提供粗粒度的关注点（例如，针对“结果”部分，指示模型“优先考虑关键发现和数据”），没有进一步阐述或显式的格式化结构。

##### 详细指令提示（DI）：
DI是一种更详细的提示策略，模拟了JMIR出版物的摘要提交指南¹¹https://support.jmir.org/hc/en-us/articles/37982552280987-Submitting-Your-Manuscript-to-JMIR-Publications-A-Guide-for-Authors，其五部分BOMRC结构化指南与DPR-BAG使用的目标修辞类别一致。通过将LLM的角色转变为“生物医学综合助手”，此提示旨在强制提取细粒度细节，并要求包含具体的研究设计、样本量、响应率以及统计指标（如p值和置信区间），以确保遵循多方面的报告标准。

##### 结构化指令提示（SI）：
SI通过引入使用Markdown格式化策略的显式结构化模式来扩展基本提示，灵感来自He等人（2024年 (https://arxiv.org/html/2605.20628#bib.bib39)）。与侧重于详细内容指导的DI相比，SI将提示组织成更结构化的格式，旨在提高指令遵循度。

#### 3.3.2 实体指导

Divide-Prompt-Refine：一种无需训练、结构感知的生物医学摘要生成框架

相似文章

LFRAG：面向布局的多模态文档理解细粒度检索增强生成

Decompose-and-Refine: 基于参数化检索的结构化法律问答

DebiasRAG：一种通过检索增强生成实现大语言模型公平生成的无调优路径

Disco-RAG: 话语感知检索增强生成

将结构化生物医学知识注入语言模型：持续预训练与GraphRAG对比

提交意见反馈