LongAttnComp: 面向长上下文推理的跨家族上下文压缩

Hugging Face Daily Papers 2026/05/31 00:00 论文

long-context context-compression attention fine-tuning code-reasoning retrieval nlp

摘要

LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器，将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能，并能跨多个模型家族迁移。

随着实际应用越来越多地需要处理超过10万token的输入，上下文长度与推理效率之间的差距已成为关键瓶颈。上下文压缩提供了一种降低预填充成本同时保持任务准确性的方法。然而，现有的无需训练的基于注意力的方法在如代码推理等要求较高的长上下文任务中仍存在明显不足。我们提出了 LongAttnComp，这是 AttnComp 在长上下文下的适配版本，通过微调轻量级交叉注意力评分层，并引入 token 级分块、token 预算 top-p 算法、位置重排序以及格式无关的查询解析器。我们还设计了一个两阶段微调方案用于压缩器：第一阶段基于 NIAH 风格数据构建通用的检索基础，第二阶段扩展多跳和推理数据以覆盖更广泛的长上下文任务。在 InfiniteBench Code-Debug 上，LongAttnComp 达到或超过了全上下文准确率，显著优于无需训练的基线方法，并能跨三个模型家族的四个目标模型进行迁移。在 LongBench v2 上，两阶段方案大幅缩小了第一阶段在多文档推理上的差距，同时保持了 Code-Debug 的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - LongAttnComp：跨系列上下文压缩用于长上下文推理

来源：https://huggingface.co/papers/2606.01336

摘要

LongAttnComp 将 AttnComp 适配到长上下文处理中，通过微调轻量级注意力层并实现令牌级别的分块和位置重排技术。

随着实际应用越来越多地需要处理超过 10 万令牌的输入，上下文长度与推理效率之间的差距已成为关键瓶颈。上下文压缩（https://huggingface.co/papers?q=Context%20compression）提供了一种降低预填充成本（https://huggingface.co/papers?q=prefill%20costs）同时保持任务准确性的方法。然而，现有的免训练注意力方法（https://huggingface.co/papers?q=attention-based%20methods）在代码推理等要求严格的长上下文任务（https://huggingface.co/papers?q=long-context%20tasks）中留下了显著差距。我们提出了 LongAttnComp，这是 AttnComp 的长上下文适配版本，它微调了一个轻量级交叉注意力评分层，并引入了令牌级别分块、令牌预算 top-p 算法（https://huggingface.co/papers?q=top-p%20algorithm）、位置重排（https://huggingface.co/papers?q=positional%20reordering）以及格式无关的查询解析器（https://huggingface.co/papers?q=query%20parser）。我们还为压缩器设计了一个两阶段微调（https://huggingface.co/papers?q=two-stage%20fine-tuning）方案：第一阶段基于 NIAH 风格的数据构建通用检索基础（https://huggingface.co/papers?q=retrieval%20foundation），第二阶段利用多跳和推理数据扩展该基础，以覆盖更广泛的长上下文任务。在 InfiniteBench Code-Debug 上，LongAttnComp 达到或超过全上下文准确率，大幅优于免训练基线，并在来自三个系列的四个目标模型上实现了迁移。在 LongBench v2 上，两阶段方案显著缩小了第一阶段在多文档推理上的差距，同时保持了 Code-Debug 性能。

查看 arXiv 页面（https://arxiv.org/abs/2606.01336）查看 PDF（https://arxiv.org/pdf/2606.01336）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.01336）

在你的智能体中获取此论文：

hf papers read 2606.01336

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集（https://huggingface.co/new-collection）中即可从此页面链接。

LongAttnComp: 面向长上下文推理的跨家族上下文压缩

论文页面 - LongAttnComp：跨系列上下文压缩用于长上下文推理

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

ACC：编译智能体轨迹以实现长上下文训练

LongAct：利用内在激活模式进行长上下文强化学习

@ickma2311: 高效AI讲座15：长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是：哪些过…

面向高效长上下文生成的Context Memorization

长时段LLM智能体服务的并行上下文压缩

提交意见反馈