LongAttnComp: 面向长上下文推理的跨家族上下文压缩

Hugging Face Daily Papers 论文

摘要

LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。

随着实际应用越来越多地需要处理超过10万token的输入,上下文长度与推理效率之间的差距已成为关键瓶颈。上下文压缩提供了一种降低预填充成本同时保持任务准确性的方法。然而,现有的无需训练的基于注意力的方法在如代码推理等要求较高的长上下文任务中仍存在明显不足。我们提出了 LongAttnComp,这是 AttnComp 在长上下文下的适配版本,通过微调轻量级交叉注意力评分层,并引入 token 级分块、token 预算 top-p 算法、位置重排序以及格式无关的查询解析器。我们还设计了一个两阶段微调方案用于压缩器:第一阶段基于 NIAH 风格数据构建通用的检索基础,第二阶段扩展多跳和推理数据以覆盖更广泛的长上下文任务。在 InfiniteBench Code-Debug 上,LongAttnComp 达到或超过了全上下文准确率,显著优于无需训练的基线方法,并能跨三个模型家族的四个目标模型进行迁移。在 LongBench v2 上,两阶段方案大幅缩小了第一阶段在多文档推理上的差距,同时保持了 Code-Debug 的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - LongAttnComp:跨系列上下文压缩用于长上下文推理

来源:https://huggingface.co/papers/2606.01336

摘要

LongAttnComp 将 AttnComp 适配到长上下文处理中,通过微调轻量级注意力层并实现令牌级别的分块和位置重排技术。

随着实际应用越来越多地需要处理超过 10 万令牌的输入,上下文长度与推理效率之间的差距已成为关键瓶颈。上下文压缩(https://huggingface.co/papers?q=Context%20compression)提供了一种降低预填充成本(https://huggingface.co/papers?q=prefill%20costs)同时保持任务准确性的方法。然而,现有的免训练注意力方法(https://huggingface.co/papers?q=attention-based%20methods)在代码推理等要求严格的长上下文任务(https://huggingface.co/papers?q=long-context%20tasks)中留下了显著差距。我们提出了 LongAttnComp,这是 AttnComp 的长上下文适配版本,它微调了一个轻量级交叉注意力评分层,并引入了令牌级别分块、令牌预算 top-p 算法(https://huggingface.co/papers?q=top-p%20algorithm)、位置重排(https://huggingface.co/papers?q=positional%20reordering)以及格式无关的查询解析器(https://huggingface.co/papers?q=query%20parser)。我们还为压缩器设计了一个两阶段微调(https://huggingface.co/papers?q=two-stage%20fine-tuning)方案:第一阶段基于 NIAH 风格的数据构建通用检索基础(https://huggingface.co/papers?q=retrieval%20foundation),第二阶段利用多跳和推理数据扩展该基础,以覆盖更广泛的长上下文任务。在 InfiniteBench Code-Debug 上,LongAttnComp 达到或超过全上下文准确率,大幅优于免训练基线,并在来自三个系列的四个目标模型上实现了迁移。在 LongBench v2 上,两阶段方案显著缩小了第一阶段在多文档推理上的差距,同时保持了 Code-Debug 性能。

查看 arXiv 页面(https://arxiv.org/abs/2606.01336)查看 PDF(https://arxiv.org/pdf/2606.01336)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01336)

在你的智能体中获取此论文:

hf papers read 2606.01336

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从此页面链接。

相似文章

ACC:编译智能体轨迹以实现长上下文训练

arXiv cs.CL

ACC将多轮智能体轨迹转化为长上下文问答对,用于训练LLMs在无需额外标注的情况下进行长程推理,在MRCR和GraphWalks基准测试上取得了显著提升,同时保持通用能力。

LongAct:利用内在激活模式进行长上下文强化学习

Hugging Face Daily Papers

LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。

面向高效长上下文生成的Context Memorization

Hugging Face Daily Papers

提出了attention-state memory,一种免训练方法,将预计算的注意力状态存储在轻量级记忆中,以提高长前缀推理的准确率并降低延迟,在基准测试中优于传统方法。

长时段LLM智能体服务的并行上下文压缩

arXiv cs.AI

介绍了用于长时间范围LLM智能体的并行上下文压缩,实现了对摘要量的细粒度控制,并相比多个骨干模型上的顺序同步压缩,降低了端到端延迟。