保留文本的有损文本压缩:策略性删除与LLM重构研究

arXiv cs.CL 论文

摘要

本文系统性地基准测试了多种删除策略(如频率引导、基于熵的)用于有损文本压缩,其中LLM重构原文,结果表明词频删除等简单方法在保留率范围内仍具竞争力。

arXiv:2605.29000v1 公告类型:新 摘要:传统的无损文本压缩保留每一个字节,但在实际运行情况下,其对自然语言的压缩收益往往有限。我们研究\emph{有损语义文本压缩},其中编码器策略性地删除部分文本,大型语言模型(LLM)根据保留的骨架重构原始内容。我们基准测试了一系列删除策略,包括均匀步长删除、词长引导删除(WordLen)、词频引导删除(WordFreq)、LP优化删除(Opt)、基于GPT-2惊异度的熵删除,以及结合频率和惊异度信号的混合方法。在BBC News数据集上,对保留率$\r_{keep} \in [0.1,0.9]$的评估显示了三个主要发现。第一,WordFreq是一个强大的低成本基线:尽管仅使用静态频率查找表,它在编码器端速度远快于语义方法的同时,仍能与更昂贵的语义方法竞争。第二,语义和混合方法在轻度到中度压缩时优势最明显,而词频删除在最低保留率下通常更稳健。第三,QLoRA微调产生的强大本地解码器可与Gemini 2.0 Flash媲美,并且在仅解码器比较中通常是最强的。额外的英文和中文实验表明,整体框架可跨领域迁移,而最佳删除规则仍取决于数据集。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:14

# 策略性删除与LLM重建研究 来源:https://arxiv.org/html/2605.29000 ## 保留文本的有损文本压缩:策略性删除与LLM重建研究 邹雨纯 纽约市立大学研究生中心 & 童俊鸿 纽约市立大学皇后学院 & 李军 纽约市立大学皇后学院 & 研究生中心 ###### 摘要 传统无损文本压缩保留每一个字节,但在自然语言上,其压缩增益在实际操作场景中往往有限。我们研究*有损语义文本压缩*,其中编码器策略性地删除部分文本,而大型语言模型(LLM)从保留的骨架中重建原始内容。我们基准测试了一系列删除策略,包括均匀步长删除、词长引导删除(WordLen)、词频引导删除(WordFreq)、LP优化删除(Opt)、基于GPT-2惊讶度的熵删除,以及结合频率和惊讶度信号的混合方法。在BBC新闻数据集上,在保留率$r_{\mathrm{keep}}\in[0.1,0.9]$下的评估显示了三个主要发现。首先,WordFreq是一个强大的低成本基线:尽管仅使用静态频率查找表,它在编码器端速度远快的同时,仍与昂贵得多的语义方法竞争激烈。其次,语义和混合方法在中等到适度压缩下提供最明显的增益,而词频删除在最低保留率下通常更稳健。第三,QLoRA微调产生了一个强大的本地解码器,可与Gemini 2.0 Flash竞争,并且在仅解码器比较中通常是最强的。额外的英语和中文实验表明,整体框架可跨领域迁移,而最佳删除规则仍取决于数据集。

保留文本的有损文本压缩:策略性删除与LLM重建研究 邹雨纯 纽约市立大学研究生中心 童俊鸿 纽约市立大学皇后学院 李军 纽约市立大学皇后学院 & 研究生中心

## 1 引言

数字网络和存储系统的信息容量已大幅增长,但生成的文本数据量仍然超过这些扩展。传统的无损压缩算法,如zlib(Gailly和Adler,1995 (https://arxiv.org/html/2605.29000#bib.bib17))、bzip2(Seward,1996 (https://arxiv.org/html/2605.29000#bib.bib18))和LZMA(Pavlov,1999 (https://arxiv.org/html/2605.29000#bib.bib19)),通过利用字节级别的统计冗余来减少存储需求。然而,由于它们保证对原始序列进行精确的逐位重建,因此在自然语言上的压缩增益本质上有限,在实际操作场景中通常仍然不大。

动机。我们的主要目标场景是在以LLM为中心的流程中对事实性文本进行上下文和带宽有限的处理。文档或先前的交互历史可能需要在以后使用之前通过窄文本通道:例如,在插入到有限的上下文窗口之前、缓存为智能体记忆、在基于文本的组件之间中继、或从弱发送方上传到强接收方。在这些场景中,中间表示可能仍然需要保持文本形式,而不是成为不透明的潜在向量,因为文本易于检查、编辑、搜索、记录和通过现有接口路由。这使得*保留文本*的有损压缩成为一种与无约束语义编码不同的操作场景。我们不声称文本瓶颈在信息论上是最优的;相反,我们研究压缩产物必须保持文本且近似语义恢复可接受的实际场景。然而,目前针对这一场景尚无系统的基准测试,导致实践者在删除策略、编码端成本或轻量级本地解码器的可行性方面缺乏原则性指导。我们在这篇论文中填补了这一空白。

我们的框架通过策略性删除令牌获得压缩骨架并传输,将重建任务委托给接收端的LLM解码器。这直接针对上下文窗口缩小、智能体记忆缓存和弱发送方/强接收方文本传输等场景,在这些场景中,被压缩的产物在重建前后都应作为有用的文本。与抽象式摘要(Rush 等人,2015 (https://arxiv.org/html/2605.29000#bib.bib14);See 等人,2017 (https://arxiv.org/html/2605.29000#bib.bib15);Liu和Lapata,2019 (https://arxiv.org/html/2605.29000#bib.bib16))重写源文本不同,我们的方法保留原始令牌作为重建的锚点。与提示压缩方法如LLMLingua(Jiang 等人,2023 (https://arxiv.org/html/2605.29000#bib.bib35))和Selective Context(Li 等人,2023 (https://arxiv.org/html/2605.29000#bib.bib34))针对固定消费者优化下游任务准确性不同,我们的目标是最大化重建后与*原始文本*的忠实度。因此,我们研究可重用的有损文本构件以供后续恢复,而不仅仅是来自压缩提示的即时任务性能。因此,下游任务准确性是一个有用的未来扩展,而非这里的主要目标。

确定*哪些*令牌要删除至关重要:朴素的均匀删除会破坏语言上下文并最大化歧义。我们比较了一系列删除方案:均匀步长删除、词长引导删除(WordLen)、词频引导删除(WordFreq)、LP优化删除(Opt)、基于GPT-2惊讶度的熵删除,以及频率和惊讶度信号的混合组合。我们通过重建后的BERTScore(Zhang 等人,2020 (https://arxiv.org/html/2605.29000#bib.bib5))在英语新闻上评估,保留率$r_{\mathrm{keep}}\in[0.1,0.9]$,使用Gemini 2.0 Flash(零样本)和QLoRA微调的Llama-3.2-3B-Instruct(Dettmers 等人,2023 (https://arxiv.org/html/2605.29000#bib.bib7))作为解码器。跨领域实验在额外英语数据集(Wikipedia, Reddit)和中文新闻扩展见附录。我们还包含了长度受限的LLM摘要基线,以区分面向重建的删除与更传统的有损重写替代方案。

贡献。(i)我们将面向重建的、保留文本的有损压缩制定为一个基准场景,具有系统的评估协议(以BERTScore为主要指标;ROUGE-L、CER和NER实体保留见附录),涵盖九个保留率。(ii)我们对广泛的删除策略家族进行了测量研究,表明它们相对优势强烈依赖于场景:语义和混合方法在中等到适度压缩下帮助最大,而WordFreq在最低保留率下仍更稳健。(iii)我们识别了在编码器计算、内存、功耗或带宽受限时实用的低资源发送端压缩方案:特别是,WordFreq仅用静态查找表即可实现竞争性重建质量,而Hybrid-$\alpha$提供了更强但更昂贵的语义替代方案。(iv)我们表明,策略感知微调可以使紧凑的本地解码器在相同重建设置下与更强的零样本专有解码器高度竞争,从而开辟本地部署路径。(v)在四个数据集上的跨领域实验(见附录A (https://arxiv.org/html/2605.29000#A1)–C (https://arxiv.org/html/2605.29000#A3))表明,若干定性趋势可迁移,但最佳删除规则仍取决于领域。

## 2 问题形式化

我们将有损语义文本压缩形式化为一个两阶段编码-解码问题。给定源文本$T$,长度为$L$,目标保留率$r_{\mathrm{keep}}\in(0,1)$,编码器通过策略性地从$T$中删除组件,产生长度为$r_{\mathrm{keep}}\cdot L$的降级表示$\tilde{T}$,解码器$D_{\phi}$仅从降级输入重建$\hat{T}=D_{\phi}(\tilde{T})$。有效的字符级压缩比为$1/r_{\mathrm{keep}}$。在推理时,只需要存储或传输$\tilde{T}$和轻量级策略元数据;解码器权重和提示模板作为共享的边信息处理。这一设置有意比连续潜在语义编码更窄:我们关注中间表示保持文本的压缩方案。我们主要使用BERTScore(Zhang 等人,2020 (https://arxiv.org/html/2605.29000#bib.bib5))评估重建质量,在重建块上平均,并报告ROUGE-L和字符错误率(CER)作为补充的词汇忠实度指标。BERTScore出现在正文中;ROUGE-L和CER在附录B (https://arxiv.org/html/2605.29000#A2)和附录D (https://arxiv.org/html/2605.29000#A4)中报告。由于没有单一自动指标能完全捕获事实忠实度,我们还报告骨架级别的命名实体保留,并讨论低保留率下的显式失败模式。

## 3 方法

本节描述完整的编码-解码流程。在编码端,*策略性删除*在保留预算下将源文本压缩为文本骨架。在解码端,*基于LLM的语义重建*将该骨架扩展为源文本的更完整版本。

### 编码器:结构化降级策略

我们将编码器策略组织为三个语言精细化级别:级别1将文本视为字符流,级别2尊重词边界并使用语料库频率统计,级别3使用神经语言模型估计上下文可预测性。更高的级别以更高的编码器成本改善令牌选择,这一权衡在4.2节 (https://arxiv.org/html/2605.29000#S4.SS2)中量化。

### 级别1:字符级删除

我们首先建立一个简单基线:*固定步长字符删除*。为实现目标保留率$r_{\mathrm{keep}}$,该策略保留大约每$\lceil 1/r_{\mathrm{keep}}\rceil$个字符,移除其余字符,产生均匀子采样序列。实践中,我们在两个整数步长之间交替,以精确达到目标保留率而不聚集删除。尽管简单,这种均匀删除策略完全无视语言结构。它同等对待所有字符(即字母、数字、空白和标点),盲目破坏关键的形态边界和上下文。因此,它作为一个严格的下界基准,激发了结构感知压缩的需求。我们还评估了三种随机字符删除基线(高斯、伯努利和泊松),它们根据各自分布随机采样删除位置,同时针对相同的$r_{\mathrm{keep}}$。

### 级别2:词级删除

自适应小词移除(WordLen)。为了克服均匀字符删除的破坏性,我们提出了一种*自适应小词移除*策略(以下简称WordLen)。它不是盲目子采样,而是逐步应用结构化编辑,移除语义重要性较低的组件,旨在达到容忍区间$[r_{\mathrm{keep}}-\epsilon, r_{\mathrm{keep}}]$。算法通过一系列越来越激进的单调变换进行:减少空白;删除长度$\geq 3$的词中的元音(如documentation → dcmnttn);删除或截断1-2个字符的短词;保留初始词干的长词缩短;移除标点和数字;如有必要,最后随机回退。该方法比固定步长基准更好地保留词干和结构锚点,但长度并非语义重要性的完美代理,且多阶段管道难以调整。因此,我们将其视为概念性阶梯,将主要分析集中在下面基于频率和优化的方法。

基于频率的静态删除(WordFreq)。针对基于长度启发式的局限性,我们引入了一种*基于频率的静态删除*策略(以下简称WordFreq)。通过利用Zipf频率分数(Speer,2022 (https://arxiv.org/html/2605.29000#bib.bib23)),该方法优先移除高度可预测的高频词,同时保留稀有、信息密集的内容词。令牌被映射到三个广义频率类别:低(Zipf < 3.0)、中(3.0 ≤ Zipf < 4.0)和高(Zipf ≥ 4.0)。该策略计算源文本中这些类别的自然分布。当需要删除一定数量的字符以达到预算时,删除配额根据原始类别频率按比例分配。在每个类别内,字符被均匀删除。这种静态方法将压缩建立在语义冗余基础上。然而,固定的比例分配迫使在所有类别中进行任意破坏,而三桶粗粒度分组可能无法完全捕捉标点、空白和数字的不同角色。

频率感知优化引导删除(Opt)。为了实现对信息移除的更精细控制,我们将静态频率模型扩展为动态的*优化引导*框架。我们首先将令牌分类扩展为六个桶:低、中、高、标点、其他和空白。我们不使用严格按比例删除,而是求解类别特定的删除比例$w_k \in [0,1]$,以最大化整体语义保留。设$p_k$为桶$k$中字符的比例。我们将桶$k$在删除率$w_k$下的预期BERTScore贡献建模为线性函数:$B_k(w_k)=1-w_k(1-B_k^{\mathrm{full}})$,其中$B_k^{\mathrm{full}}$是当整个桶被删除时经验测量的BERTScore。我们将最优分配形式化为线性规划:
$$
\max_{\{w_k\}} \quad \sum_k p_k \cdot B_k(w_k)
$$
约束:
$$
\sum_k p_k w_k \leq 1 - r_{\mathrm{keep}}, \quad 0 \leq w_k \leq 1 \ \forall k.
$$
通过使用CVXPY(Diamond和Boyd,2016 (https://arxiv.org/html/2605.29000#bib.bib22))数值求解该LP,策略在触及高度敏感类别之前,牺牲最稳健和冗余的令牌类别。此LP有意为粗粒度的桶级近似:它忽略令牌交互,以保持分配的可解释性和可处理性。

### 级别3:语义级删除

基于熵的删除。频率只是可预测性的静态代理。更精确的信号是语言模型下每个令牌的惊讶度,它直接度量上下文信息含量。遵循LLMLingua(Jiang 等人,2023 (https://arxiv.org/html/2605.29000#bib.bib35))的一般原则,我们计算GPT-2惊讶度,并优先删除最低惊讶度的令牌。这改善了令牌选择,尤其是在较强压缩下,但需要神经编码器推理(每512字符块约15ms GPU,约130ms CPU,而WordFreq约1ms)。

混合频率-熵删除。频率和惊讶度捕捉互补的信号:全局语料冗余与上下文可预测性。因此,我们研究三种混合策略。
Entropy-LP用惊讶度三分位数替换LP分配中的Zipf桶,改变*删除多少*

相似文章

线性集成消除水印:论LLM中分布扰动的脆弱性

arXiv cs.CL

本文揭示了LLM水印的一个基本漏洞:当用户能够访问多个模型时,对其输出分布进行平均会抵消水印扰动,从而规避检测。作者提出了WASH方法,并通过实验证明,对3-5个模型进行平均可将检测z分数抑制在阈值以下,同时提升文本质量。

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。