大规模端到端上下文压缩
摘要
本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。
查看缓存全文
缓存时间: 2026/06/09 08:43
论文页面 - 端到端上下文大规模压缩
来源:https://huggingface.co/papers/2606.09659
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
编码器-解码器压缩技术通过架构搜索和大规模预训练得到改进,从而创建了潜在上下文语言模型,该模型能够高效处理长上下文,与传统KV缓存方法相比具有更优的性能和内存使用。
长上下文语言模型推理受限于内存,因为KV缓存(https://huggingface.co/papers?q=KV%20cache)会随上下文长度增长。最近压缩KV缓存(https://huggingface.co/papers?q=KV%20cache)的技术存在不足:要么大幅降低模型质量,要么需要大量时间和计算来压缩单个长提示。此外,许多方法要求输入适合目标模型的上下文窗口,并且通常与现代生产推理引擎不兼容。编码器-解码器压缩器(https://huggingface.co/papers?q=Encoder-decoder%20compressors)将长 token 序列映射为由解码器消费的较短的潜在嵌入序列(https://huggingface.co/papers?q=latent%20embeddings),原则上是一种有吸引力的替代方案。然而,现有方法在精度-效率前沿上无法与KV缓存(https://huggingface.co/papers?q=KV%20cache)压缩相抗衡。在这项工作中,我们重新审视了编码器-解码器压缩(https://huggingface.co/papers?q=encoder-decoder%20compression)并缩小了这一差距。我们首先进行了架构搜索(https://huggingface.co/papers?q=architecture%20search),从头开始预训练(https://huggingface.co/papers?q=pre-training)多种变体,以确定设计和训练编码器-解码器压缩器(https://huggingface.co/papers?q=encoder-decoder%20compressors)的最佳方式。根据我们的发现,我们在超过350B个token上持续预训练了一组0.6B编码器、4B解码器的模型系列,压缩比(https://huggingface.co/papers?q=compression%20ratios)分别为1:4、1:8和1:16。我们引入了潜在上下文语言模型(Latent Context Language Models, LCLMs)(https://huggingface.co/papers?q=Latent%20Context%20Language%20Models),这是一组压缩器,在通用任务性能、压缩速度和峰值内存使用方面改进了帕累托前沿。我们证明LCLMs可作为长视界代理(https://huggingface.co/papers?q=long-horizon%20agents)的高效骨干网络,允许代理浏览压缩的长上下文,并根据需要自适应地扩展相关片段。
查看arXiv页面(https://arxiv.org/abs/2606.09659)查看PDF(https://arxiv.org/pdf/2606.09659)GitHub3(https://github.com/LeonLixyz/LCLM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09659)
在您的代理中获取此论文:
hf papers read 2606\.09659
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.09659 以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.09659 以从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.09659 以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加至收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
@Pavel_Izmailov: 新论文:潜在上下文语言模型(LCLMs)!思想:将16个token编码为1个潜在token,让LLM处理t…
介绍潜在上下文语言模型(LCLMs),该模型将16个token编码为1个潜在token,以提高性能、速度和内存使用。
Latent Cache Flow:无需文本的模型间通信
本文介绍了 Latent Cache Flow(LCF),一种通过交换压缩后的KV缓存而非文本来实现高效模型间通信的方法,从而减少了适配器大小并实现了跨上下文通信。
更少的上下文,更高的准确性:一种用于LLM代理的双时态记忆引擎,其中精简检索的上下文胜过了完整历史
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。
LongAttnComp: 面向长上下文推理的跨家族上下文压缩
LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。
更少上下文,更智能代理:面向长周期工具使用的LLM代理的高效上下文工程
本文评估了企业工具使用工作流中LLM代理的上下文工程配置,表明选择性修剪的摘要化相比全上下文基线实现了91.6%的准确率,同时将令牌使用量减少了60%以上。