SCURank:利用摘要内容单元对多个候选摘要进行排序,提升摘要质量
摘要
SCURank 引入“摘要内容单元”对候选摘要打分,使从多个大模型蒸馏出的小模型超越传统指标与单一模型蒸馏效果。
arXiv:2604.19185v1 公告类型:新增
摘要:小型语言模型(SLMs)如 BART,通过蒸馏可达到与大模型(LLMs)相当的摘要性能。然而,现有基于 LLM 的候选摘要排序策略不稳定,经典指标(如 ROUGE)又难以区分高质量摘要。为此,我们提出 \textbf{SCURank} 框架,利用 \textbf{摘要内容单元(SCUs)} 提升摘要质量。SCURank 不再依赖不稳定对比或表层重合,而是根据信息内容的丰富度与语义重要性评估摘要。我们研究了 SCURank 从多个异构 LLM 蒸馏摘要的效果。实验表明,SCURank 在各项指标与数据集上均优于传统指标与基于 LLM 的排序方法。此外,引入多样化 LLM 摘要可提升模型抽象能力与蒸馏后模型整体表现,验证了以信息为中心的排序在多 LLM 蒸馏中的价值。代码已开源:https://github.com/IKMLab/SCURank
查看缓存全文
缓存时间: 2026/04/22 08:30
# SCURank:利用摘要内容单元(SCU)对多候选摘要进行排序,提升摘要质量
**作者**
Bo-Jyun Wang¹²,Ying-Jia Lin²³,Hung-Yu Kao⁴
¹ 国立成功大学 资讯工程学系
² 长庚大学 人工智能研究中心
³ 长庚大学 人工智能学系
⁴ 国立清华大学 资讯工程学系
{bojyun.wang, yjlin}@cgu.edu.tw,[email protected]
###### 摘要
小型语言模型(SLMs,如 BART)通过蒸馏可达到与大型语言模型(LLMs)相当的摘要性能。然而,现有基于 LLM 的候选摘要排序策略不稳定,而传统指标(如 ROUGE)又难以区分高质量摘要。为此,我们提出 SCURank 框架,利用“摘要内容单元”(SCU)提升摘要质量。SCURank 不依赖不稳定的直接比较或表层 n-gram 重叠,而是根据信息内容的丰富度与语义重要性评估摘要。我们系统研究了从多个不同 LLM 中蒸馏摘要时 SCURank 的有效性。实验表明,SCURank 在各项指标与数据集上均优于传统指标与 LLM 排序方法。此外,引入多 LLM 摘要可提升蒸馏模型的抽象性与整体性能,验证了“以信息为中心”的排序在多 LLM 蒸馏中的价值。代码已开源:https://github.com/IKMLab/SCURank
---
## 1 引言
ChatGPT 的出现(Ouyang et al., 2022)推动了 NLP 范式的转变,摘要领域亦受益其中。随后 GPT-4(OpenAI, 2024a)及众多 LLM(Google, 2024;Anthropic, 2024;Mistral AI, 2024)凭借 API 的易用性展现出卓越性能。然而,LLM 本地部署成本极高(Hsieh et al., 2023),促使研究界将其蒸馏为面向特定任务的小模型(Hinton et al., 2015;Jiang et al., 2024)。蒸馏后的模型在资源受限场景下性能无损,甚至超越 LLM(Liu et al., 2024)。
Liu et al. (2024) 借助 BRIO(Liu et al., 2022)对比学习框架进行蒸馏,其中正负样本由候选摘要排序决定,因此排序函数质量至关重要。作者提出 GPTRank,用 LLM 对 LLM 生成的高质量摘要进行排序,为 BRIO 提供可靠监督。然而,该方案面临两大挑战:
1. Shen et al. (2023);Wang et al. (2024) 指出 LLM 在文本比较与排序任务上仍不稳定;
2. 仅依赖单一 LLM 易引入模型特有偏差(如内容选择),且生成模式单一。
为此,我们探索利用多 LLM 生成候选摘要,并研究高效排序方法。为避免 LLM 直接排序的不稳定性,我们将评估重心回归摘要核心目标——信息保留。我们借鉴 SCU(Nenkova & Passonneau, 2004)概念:每个 SCU 是独立、简洁、唯一的摘要信息单元(Shapira et al., 2019)。传统 SCU 需人工标注,成本高昂且难复现(Zhang & Bansal, 2021)。Nawrathet al. (2024) 提出用 GPT-3.5/GPT-4 自动生成语义 GPT 单元(SGU),质量已获验证。本文将 SGU 视作 SCU,并基于此提出 **SCURank** 框架,通过三步评估候选摘要的信息丰富度:
1. 提取 SCU;
2. 聚类聚合 SCU 并估计重要性;
3. 按 SCU 重要性为摘要打分并归一化长度偏差。
SCURank 仅在 SCU 提取阶段调用 LLM,避开直接比较的不稳定性。本文贡献:
(1) 提出基于 SCU 的高质量摘要排序方法 SCURank;
(2) 系统研究多 LLM 蒸馏效果;
(3) 验证 SCURank+对比学习可提升蒸馏模型性能。
![图1:框架概览。数据生成阶段为每篇文章调用多个 LLM 生成候选摘要;SCURank 通过①提取 SCU、②用句嵌入+HDBSCAN 聚类、③按 SCU 分布打分三步完成排序;最终用 BRIO 训练蒸馏模型。]
---
## 2 相关研究
SCURank 结合“SCU 分解”与“排序对比学习”两条主线。
### 2.1 摘要内容单元(SCU)
Nenkova & Passonneau (2004) 首次提出 SCU 用于可靠、可诊断的摘要评估。Shapira et al. (2019) 简化流程,降低对专家与成本的依赖。Zhang & Bansal (2021) 用语义角色标注抽取 STU;Nawrathet al. (2024) 进一步提出基于 AMR 的 SMU 与基于 LLM 的 SGU,后者质量最佳。本文采用 Nawrathet al. (2024) 的 SGU 作为 SCU。
### 2.2 基于排序的摘要对比学习
SimCLS(Liu & Liu, 2021)首次用打分模型对比学习;BRIO(Liu et al., 2022)将生成与评估统一,但均依赖 ROUGE,难以评估高质量摘要。Liu et al. (2024) 提出 GPTRank,结合 G-Eval 思想,用 LLM 排序并给出解释。然而 Wang et al. (2024) 发现 LLM 存在位置偏差,Shen et al. (2023) 亦指出 LLM 文本比较一致性差,亟需更稳定的方法。
---
## 3 方法
### 3.1 问题设定
令文档为 𝒟,待蒸馏的 n 个摘要模型为 F={fᵢ}ᵢ₌₁ⁿ,均采用同一提示(附录 A)。各模型生成摘要 sᵢ=fᵢ(𝒟),构成候选集 S={sᵢ}ᵢ₌₁ⁿ。
### 3.2 SCURank
#### 3.2.1 概览
如图 1,SCURank 分三步:①提取 SCU;②聚类聚合;③按 SCU 重要性打分。
#### 3.2.2 SCU 提取
采用 Nawrathet al. (2024) 的 LLM 方法,用 gpt-4o-mini(成本低且性能与 gpt-4o 相当,附录 B)作为 SCUExt 抽取 SCU:
𝒰ᵢ={uᵢ,₁,…,uᵢ,ₘᵢ}=SCUExt(sᵢ)。
每篇摘要 sᵢ 的 SCU 数量 mᵢ 不固定。
#### 3.2.3 SCU 聚合
将全体 SCU 按语义相似度聚类,每簇代表一条独立语义信息,簇大小反映其重要性。
##### 句编码器
使用轻量高效的 all-mpnet-base-v2 将 SCU 向量化:
𝒱ᵢ=Encoder(𝒰ᵢ),并合并为 𝒱=⋃ᵢ₌₁ⁿ𝒱ᵢ 供聚类。
##### HDBSCAN
由于语义类别数未知,采用 HDBSCAN(Campello et al., 2013)自动确定簇数并识别噪声点,较 DBSCAN 更能处理密度不均数据。相似文章
最适合英语故事摘要的本地LLM
一份比较最适合英语故事摘要的本地LLM的指南,根据性能和可访问性提供推荐。
基于熵与低秩重构的高保真KV缓存摘要
提出一种SRC流水线,通过基于熵的选择和低秩重构对KV缓存进行摘要,而非直接裁剪token,在百万token的LLM上下文中降低显存占用,同时避免灾难性注意力错误。
通过偏好学习从多个不完美指标优化摘要的事实一致性
本文介绍了一种通过偏好学习聚合多个弱指标的分数来提高文本摘要事实一致性的方法,在各种语言模型上实现了一致的事实性提升。
基于思维树启发的混合方法:使用大语言模型进行法律案件判决摘要生成
提出一种基于思维树的抽取-生成混合方法,利用大语言模型进行法律案件判决摘要,在DeepSeek和LLama上的实验表明,该方法生成的摘要优于单独的抽取式或生成式方法。
适合 <2000 token 的轻量级摘要小模型
一位新手在尝试用 Qwen2.5-7B-Instruct 给员工笔记做摘要时遭遇幻觉,现求助适用于 2000 token 以内、能合并同类标签的小模型及提示策略。