上下文压缩并非单一方法:匹配预算下可读符号重表达与连贯摘要的对比

arXiv cs.CL 论文

摘要

本文提出Telegraph English,一种可读的符号格式用于上下文压缩,在多跳问答数据集上优于匹配预算的基线方法,更密集地保留了实体内容。

arXiv:2606.14875v1 公告类型:新 摘要:我们研究使用小语言模型进行多跳问答的上下文压缩。我们提出Telegraph English,一种可读的符号格式,将检索到的段落重写为结构化的实体-关系陈述,以更低的token成本保留推理证据。在MuSiQue、TwoWiki和HotpotQA上的受控实验中,Telegraph English在每个数据集上都优于三种匹配预算的压缩基线(字符级删除、截断和随机子采样),F1得分提升了13到20个百分点。在难度最大的数据集上,它还优于同一编码器生成的连贯散文摘要。一个预先注册的深度交互假设被证伪:优势并不随数据集内的推理深度而增加。我们将这些结果解释为,在匹配的token预算下,可读符号重表达比自然语言或连贯摘要更密集地保留了实体内容。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:44

# 上下文压缩并非单一事物:在匹配预算下,可读符号化重表达与连贯摘要的对比

来源:https://arxiv.org/html/2606.14875  
Sisong Bei 独立研究员 qurining@gmail\.com & Mikhail L\. Arbuzov 独立研究员 mike\.arbuzov54@gmail\.com  
Ziwei Dong 独立研究员 ziwei\.dong@alumni\.emory\.edu & Dmitri Kalaev 独立研究员 kalaevdr@gmail\.com  

###### 摘要

我们研究了面向小语言模型的多跳问答中的上下文压缩。我们提出“电报英语”(Telegraph English),这是一种可读的符号化格式,它将检索到的段落重写为结构化的实体-关系陈述,以更低的 token 成本保留推理证据。在 MuSiQue、2Wiki 和 HotpotQA 上的受控实验中,电报英语在每个数据集上的表现均优于三种匹配预算的压缩基线(字符级删除、截断和随机子采样),F1 分数提升 13 到 20 个点。在最难的数据集上,它同样优于由同一编码器生成的连贯散文摘要。一个预先注册的深度交互假设被证伪:该优势并未随数据集内推理深度的增加而增长。我们将这些结果解释为:在匹配的 token 预算下,可读的符号化重表达比自然语言或连贯摘要更能密集地保留实体内容。

上下文压缩并非单一事物:在匹配预算下,可读符号化重表达与连贯摘要的对比

Sisong Bei 独立研究员 qurining@gmail\.com  
Mikhail L\. Arbuzov 独立研究员 mike\.arbuzov54@gmail\.com  
Ziwei Dong 独立研究员 ziwei\.dong@alumni\.emory\.edu  
Dmitri Kalaev 独立研究员 kalaevdr@gmail\.com  

Alexey Shvets Palo Alto Networks ashvets@paloaltonetworks\.com  

## 1 引言

小语言模型在多跳问答中面临一个矛盾:检索到的自然语言上下文在 token 上成本高昂,且在长篇段落中容易出错;而短检索则会丢弃读者进行多步推理所需的桥梁实体。先前的上下文压缩工作通过 token 级别评分(Jiang 等人,2023 (https://arxiv.org/html/2606.14875#bib.bib4);Pan 等人,2024 (https://arxiv.org/html/2606.14875#bib.bib5))、隐藏状态摘要(Mu 等人,2023 (https://arxiv.org/html/2606.14875#bib.bib7);Chevalier 等人,2023 (https://arxiv.org/html/2606.14875#bib.bib8))或任务感知的抽象摘要(Xu 等人,2024 (https://arxiv.org/html/2606.14875#bib.bib10))来解决这一矛盾,但每种方法都致力于选择性保留或潜在空间摘要,而非在表面文本中进行重表达。

我们研究了另一种思路。一个小型编码器将检索到的自然语言段落重写为一种可读的、受规则约束的符号化格式,我们称之为*电报英语*(TE),然后一个小型消费者模型读取 TE 代替自然语言。TE 逐字保留实体,并用管道分隔的符号化操作符替换了自然语言的连接组织。编码器提示是固定的,编码器本身也被冻结;消费者模型无需微调。

本工作建立在电报英语的基础之上,这是一种由 Arbuzov 等人(2026a (https://arxiv.org/html/2606.14875#bib.bib2))引入的可读符号化压缩格式,其动机来自 Arbuzov 等人(2025 (https://arxiv.org/html/2606.14875#bib.bib1))的错误累积分析,该分析表明 LLM 的错误集中在稀疏的关键 token 子集上。补丁局部可靠性工程的理论框架(Arbuzov 等人,2026b (https://arxiv.org/html/2606.14875#bib.bib3))提供了更广泛的背景。

我们在三个多跳基准测试(MuSiQue、2Wiki、HotpotQA)上测试了 TE,并与三种匹配预算的控制项进行了对比:字符级密度匹配、末尾截断和随机子采样。TE 在每个数据集和每个控制项上都取得了胜利,配对自助法 95% 置信区间严格为正,F1 分数提升了+13\.6\+13\.6到+20\.2\+20\.2个点(图 1 (https://arxiv.org/html/2606.14875#S5.F1))。在相同 token 预算下,TE 在同一编码器生成的连贯散文摘要上也在最难的数据集(MuSiQue,+11\.94\+11\.94个百分点)上胜出。匹配预算的控制项排除了字符密度操控、自然语言尾部可抛弃性以及随机 token 充足性作为 TE 优势的替代解释。

我们预先注册了一个更强的深度交互假设:TE 相对于自然语言的优势会随着问题推理深度的增加而增长。该假设被证伪。所有四个数据集内的交互斜率在方向上与预测一致,但均不具有统计显著性(FDR 校正后p\>0\.41p\>0\.41,I2=0%I^{2}=0\%)。最小可检测效应量分析将设计范围限定为:在 2 跳至 4 跳范围内,不能排除约4–54–5个 F1 点的扩大;在我们的样本量下,无法将更弱的效应与零区分。

#### 贡献。

- •一种面向多跳问答的匹配预算压缩机制:在相同 token 预算下,TE 胜过了三种简单压缩控制项和一个连贯散文摘要生成器,支持了 TE 在自然语言存在冗余的地方进行压缩的解读。
- •一个预先注册的关于深度依赖性扩大的零结果,结合最小可检测效应量分析,将匹配预算增益的范围限定为恒定偏移量,而非深度缩放优势。

## 2 相关工作

语言模型的上下文压缩是为了应对日益增长的检索增强上下文成本而出现的。我们的贡献在机制上不同于先前的工作:TE 是由一个具有固定提示的冻结编码器生成的表面文本重表达,并由一个冻结的消费者模型读取。我们将先前的工作分为四个家族,并对比 TE 与每个家族的区别。

#### Token 级别评分。

LLMLingua(Jiang 等人,2023 (https://arxiv.org/html/2606.14875#bib.bib4))和 LLMLingua\-2(Pan 等人,2024 (https://arxiv.org/html/2606.14875#bib.bib5))通过一个在信息保留代理上训练的小模型对单个 token 进行评分,以决定保留或删除。LongLLMLingua(Jiang 等人,2024 (https://arxiv.org/html/2606.14875#bib.bib6))将评分扩展到文档级别的显著性。该家族的主要基线是速率-50 的 LLMLingua\-2。其机制是选择性保留:输出是输入的子序列。TE 的机制是重表达:编码器将内容重写为一种保留实体的格式,其中桥梁实体被逐字保留,连接组织被符号化操作符替换。Token 级别评分无法在匹配预算下产生这种重新格式化。

#### 隐藏状态压缩。

GIST(Mu 等人,2023 (https://arxiv.org/html/2606.14875#bib.bib7))将上下文压缩为隐藏状态层的软 token。AutoCompressor(Chevalier 等人,2023 (https://arxiv.org/html/2606.14875#bib.bib8))将长上下文压缩为摘要向量。CEPE(Yen 等人,2024 (https://arxiv.org/html/2606.14875#bib.bib9))将对检索段落的跨注意力扩展到压缩摘要。这三种方法都在消费者模型的潜在空间中操作,并且需要消费者端的训练。TE 在表面文本中操作,不需要消费者端训练——这是一个实际区别,适用于消费者端重新训练成本高昂且可审计性重要的小模型部署场景。

#### 任务感知的抽象摘要。

RECOMP(Xu 等人,2024 (https://arxiv.org/html/2606.14875#bib.bib10))通过一个在下游 QA 任务上微调过的学习型抽象摘要器来压缩检索到的段落。CompAct(Yoon 等人,2024 (https://arxiv.org/html/2606.14875#bib.bib11))使用一个在 QA 监督上调优的任务条件编码器。编码器的输出是自然语言,并且编码器是在任务上微调过的。TE 的编码器是任务无关的,运行一个冻结的提示,并产生符号-结构化的输出。对比再次涉及机制而非比率。

#### 用于推理的符号中间体。

先前的工作在前向方向使用了符号中间体:思维链(Wei 等人,2022 (https://arxiv.org/html/2606.14875#bib.bib19))、程序辅助语言模型(Gao 等人,2023 (https://arxiv.org/html/2606.14875#bib.bib20))、结构化草稿板(Nye 等人,2021 (https://arxiv.org/html/2606.14875#bib.bib21)),在这些方法中,消费者模型产生符号化输出。我们在输入方向使用符号中间体:消费者模型读取符号化上下文来代替自然语言散文。电报英语格式本身由 Arbuzov 等人(2026a (https://arxiv.org/html/2606.14875#bib.bib2))引入,作为提示压缩的结构化符号化重写目标;本文将其作为一种对 tokenizer 敏感、由编码器生成的上下文表示,针对多跳 QA 与匹配预算控制项进行评估。

#### 定位。

TE 是重表达,而非保留或潜在压缩。本文中的匹配预算控制项将重表达机制与三种简单替代方案区分开来,而连贯散文比较器进一步将其与相同预算下的通用抽象摘要区分开来。

## 3 方法

### 3\.1 电报英语

电报英语 (TE) 是一种由编码器语言模型(通过 AWS Bedrock 批处理推理的 Claude Sonnet 4\.6)使用固定、任务无关的提示生成的上下文表示。编码器将检索到的自然语言段落重写为一系列管道分隔的符号化子句,其中实体被逐字保留,自然语言的连接组织被替换为以@前缀的短操作符。该提示指示输出应与消费者模型(Qwen\-3\.5\-9B)的 tokenizer 兼容,以便消费者处的 token 预算与写入内容匹配。一个来自 MuSiQue 的代表性前后对比:

> 自然语言: “Barack Obama was born in Honolulu, Hawaii\. Honolulu is the capital of the state of Hawaii\. Hawaii is a state in the United States\. TE: “Barack Obama @born Honolulu | Honolulu @capital\_of Hawaii | Hawaii @state\_in United States\.”

完整的编码器提示和其他示例见附录 C (https://arxiv.org/html/2606.14875#A3)。

### 3\.2 主要假设:深度交互

我们预先注册(附录 H (https://arxiv.org/html/2606.14875#A8))了一个主要假设:TE 相对于自然语言的优势会随着问题推理深度的增加而增长。在操作上,我们将问题级别的正确性建模为表示形式(自然语言、TE 或 LLMLingua\-2)、居中的跳数以及它们交互的函数,每个数据集通过带问题层面聚类稳健标准误的二元广义线性模型进行拟合。主要检验是 TE 的表示形式×\times跳数交互的符号和显著性:负斜率意味着 TE 相对于自然语言的优势随着跳数增加而增长。我们通过随机效应元分析将 MuSiQue 和 2Wiki 的每个数据集斜率进行汇总,并对主要交互族应用错误发现率校正。HotpotQA 被排除在回归之外,因为其所有问题都是 2 跳的。完整的估计方程、异质性分支规则和随机效应规范见附录 A (https://arxiv.org/html/2606.14875#A1)。

### 3\.3 辅助机制:匹配预算控制项

我们单独预先注册了一个辅助机制观察(附录 H (https://arxiv.org/html/2606.14875#A8)):TE 仅在自然语言存在冗余需要剥离的地方执行语义保持压缩。测试是 TE 是否在匹配的逐行 token 预算下优于三种简单压缩控制项。每个控制项都是根据 TE 的逐行 qwen token 计数计算得出,并排除了一个特定的替代解释:

- •**字符密度。** 自然语言段落在字符级别进行缩放,使其 qwen token 占用空间与 TE 匹配。排除了 TE 的增益来自逐行字符密度操控的假设。
- •**末尾截断。** 自然语言段落在 qwen token 边界处从末尾截断,使其具有 TE 的逐行 token 计数。排除了自然语言尾部是可抛弃的假设。
- •**随机子采样。** 从自然语言段落中抽取固定种子的均匀 qwen token 位置子样本,大小调整为 TE 的预算。排除了任何随机自然语言 token 子集就足够的假设。

控制项的方向是预先注册的(TE 应击败所有三个);描述性的“9 个置信区间中的 9 个严格为正”的总结是事后的。完整的逐行规范见附录 D (https://arxiv.org/html/2606.14875#A4)。

### 3\.4 连贯散文比较器

一个自然的后续问题是,TE 的优势是否在相同预算下对连贯散文摘要(而非简单控制项)仍然成立。我们在一个自由散文摘要提示下运行相同的编码器,并将每个摘要后截断到 TE 的逐行 token 预算。这个匹配预算的对比将表示格式与压缩比率分离开来:编码器、消费者和预算保持不变;只有压缩段落的表面形式发生变化。

## 4 实验设置

### 4\.1 数据集与消费者模型

我们在三个具有不同深度分布的多跳 QA 基准上进行评估:MuSiQue(Trivedi 等人,2022 (https://arxiv.org/html/2606.14875#bib.bib12))(n=2,417n=2{,}417个问题;跳数∈\{2,3,4\}\\in\\{2,3,4\\\})、2Wiki(Ho 等人,2020 (https://arxiv.org/html/2606.14875#bib.bib13))(n=1,500n=1{,}500;每个跳数级别平衡 500 个)和 HotpotQA(Yang 等人,2018 (https://arxiv.org/html/2606.14875#bib.bib14))(n=1,000n=1{,}000;全部 2 跳)。消费者模型始终是 Qwen\-3\.5\-9B(基础模型;HF eager bf16,贪婪解码)。TE 的编码器是通过 AWS Bedrock 批处理推理的 Claude Sonnet 4\.6。检索到的段落是每个基准测试发布的黄金加干扰物上下文;自然语言、TE 和 LLMLingua\-2 在每个问题上读取相同的段落集。

### 4\.2 提示与答案提取

所有表示形式共享一个单一的中性消费者提示(附录 B (https://arxiv.org/html/2606.14875#A2))。答案通过正则表达式从消费者模型的最终行输出中提取,并使用 token 级别的 F1 与黄金答案进行评估,二元正确性定义为F1≥0\.5F1\\geq 0\.5。

### 4\.3 基线

- •**自然语言。** 完整的检索段落,未修改。标准的无压缩基线。
- •**速率-50 的 LLMLingua\-2**(Pan 等人,2024 (https://arxiv.org/html/2606.14875#bib.bib5))。主要的学习型 token 评分基线。
- •**三种匹配预算控制项**(字符密度、末尾截断、随机子采样),每个都调整为 TE 的逐行 qwen token 计数。定义见 §3\.3 (https://arxiv.org/html/2606.14875#S3.SS3) 和附录 D (https://arxiv.org/html/2606.14875#A4)。
- •**连贯散文摘要**,由同一编码器生成并后截断到 TE 的逐行 token 预算(§3\.4 (https://arxiv.org/html/2606.14875#S3.SS4))。

### 4\.4 统计协议

我们使用配对自助法 95% 置信区间(nboot=10,000n_{\\text{boot}}=10{,}000,种子 0)进行里程碑对比和匹配预算对比。预先注册的深度交互测试使用带问题层面聚类稳健标准误的二元广义线性模型,通过随机效应元分析跨数据集汇总,并对主要交互族应用错误发现率校正(Benjamini 和 Hochberg,1995 (https://arxiv.org/html/2606.14875#bib.bib15);DerSimonian 和 Laird,1986 (https://arxiv.org/html/2606.14875#bib.bib16))。完整的统计规范、预先承诺的异质性规则以及针对随机截距拟合的敏感性检查见附录 A (https://arxiv.org/html/2606.14875#A1)。

### 4\.5 预先注册的协议

我们在数据收集之前提交了预注册。主要的深度交互假设、匹配预算机制观察、FDR 校正族、随机效应汇总规范、异质性分支规则以及里程碑死门测试均已预先注册;协议和附

相似文章

上下文压缩应该保留什么?我观察了六种智能体的处理方式[D]

Reddit r/MachineLearning

分析六种AI编程智能体(Claude Code、Codex CLI、OpenCode、Cline、Cursor、Amp)如何趋同于分层渐进式压缩以处理长上下文,它们在保护内容(用户消息、有状态工具输出)以及是否告知模型压缩方面存在差异,并在成本与准确性之间进行权衡。

大规模端到端上下文压缩

Hugging Face Daily Papers

本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。