大规模端到端上下文压缩

Hugging Face Daily Papers 论文

摘要

本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。

长上下文语言模型推理的瓶颈在于内存,因为KV缓存会随着上下文长度增长而增加。最近的KV缓存压缩技术存在不足:要么显著降低模型质量,要么需要大量时间和计算来压缩单个长提示。此外,许多方法要求输入能够适配目标模型的上下文窗口,并且通常与现代生产推理引擎不兼容。从原理上讲,编码器-解码器压缩器是一种有吸引力的替代方案,它可以将长的token序列映射为较短的隐向量序列,由解码器消费。然而,现有方法在精度-效率前沿上无法与KV缓存压缩竞争。在这项工作中,我们重新审视编码器-解码器压缩,并缩小了这一差距。我们首先进行架构搜索,从头预训练多个变体,以确定如何最好地设计和训练编码器-解码器压缩器。根据我们的发现,我们持续预训练一系列模型,每个模型包含0.6B参数的编码器和4B参数的解码器,在超过350B个token上进行训练,压缩比分别为1:4、1:8和1:16。我们提出了隐上下文语言模型(LCLMs),这是一系列压缩器,它们在总体任务性能、压缩速度和峰值内存使用上改进了帕累托前沿。我们证明LCLMs可以作为长期代理的高效骨干,让代理能够快速浏览压缩后的长上下文,并按需自适应扩展相关片段。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:43

论文页面 - 端到端上下文大规模压缩

来源:https://huggingface.co/papers/2606.09659

作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

编码器-解码器压缩技术通过架构搜索和大规模预训练得到改进,从而创建了潜在上下文语言模型,该模型能够高效处理长上下文,与传统KV缓存方法相比具有更优的性能和内存使用。

长上下文语言模型推理受限于内存,因为KV缓存(https://huggingface.co/papers?q=KV%20cache)会随上下文长度增长。最近压缩KV缓存(https://huggingface.co/papers?q=KV%20cache)的技术存在不足:要么大幅降低模型质量,要么需要大量时间和计算来压缩单个长提示。此外,许多方法要求输入适合目标模型的上下文窗口,并且通常与现代生产推理引擎不兼容。编码器-解码器压缩器(https://huggingface.co/papers?q=Encoder-decoder%20compressors)将长 token 序列映射为由解码器消费的较短的潜在嵌入序列(https://huggingface.co/papers?q=latent%20embeddings),原则上是一种有吸引力的替代方案。然而,现有方法在精度-效率前沿上无法与KV缓存(https://huggingface.co/papers?q=KV%20cache)压缩相抗衡。在这项工作中,我们重新审视了编码器-解码器压缩(https://huggingface.co/papers?q=encoder-decoder%20compression)并缩小了这一差距。我们首先进行了架构搜索(https://huggingface.co/papers?q=architecture%20search),从头开始预训练(https://huggingface.co/papers?q=pre-training)多种变体,以确定设计和训练编码器-解码器压缩器(https://huggingface.co/papers?q=encoder-decoder%20compressors)的最佳方式。根据我们的发现,我们在超过350B个token上持续预训练了一组0.6B编码器、4B解码器的模型系列,压缩比(https://huggingface.co/papers?q=compression%20ratios)分别为1:4、1:8和1:16。我们引入了潜在上下文语言模型(Latent Context Language Models, LCLMs)(https://huggingface.co/papers?q=Latent%20Context%20Language%20Models),这是一组压缩器,在通用任务性能、压缩速度和峰值内存使用方面改进了帕累托前沿。我们证明LCLMs可作为长视界代理(https://huggingface.co/papers?q=long-horizon%20agents)的高效骨干网络,允许代理浏览压缩的长上下文,并根据需要自适应地扩展相关片段。

查看arXiv页面(https://arxiv.org/abs/2606.09659)查看PDF(https://arxiv.org/pdf/2606.09659)GitHub3(https://github.com/LeonLixyz/LCLM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09659)

在您的代理中获取此论文:

hf papers read 2606\.09659

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.09659 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.09659 以从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.09659 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加至收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

Latent Cache Flow:无需文本的模型间通信

arXiv cs.LG

本文介绍了 Latent Cache Flow(LCF),一种通过交换压缩后的KV缓存而非文本来实现高效模型间通信的方法,从而减少了适配器大小并实现了跨上下文通信。

LongAttnComp: 面向长上下文推理的跨家族上下文压缩

Hugging Face Daily Papers

LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。