LongAttnComp: 面向长上下文推理的跨家族上下文压缩
摘要
LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。
查看缓存全文
缓存时间: 2026/06/02 15:37
论文页面 - LongAttnComp:跨系列上下文压缩用于长上下文推理
来源:https://huggingface.co/papers/2606.01336
摘要
LongAttnComp 将 AttnComp 适配到长上下文处理中,通过微调轻量级注意力层并实现令牌级别的分块和位置重排技术。
随着实际应用越来越多地需要处理超过 10 万令牌的输入,上下文长度与推理效率之间的差距已成为关键瓶颈。上下文压缩(https://huggingface.co/papers?q=Context%20compression)提供了一种降低预填充成本(https://huggingface.co/papers?q=prefill%20costs)同时保持任务准确性的方法。然而,现有的免训练注意力方法(https://huggingface.co/papers?q=attention-based%20methods)在代码推理等要求严格的长上下文任务(https://huggingface.co/papers?q=long-context%20tasks)中留下了显著差距。我们提出了 LongAttnComp,这是 AttnComp 的长上下文适配版本,它微调了一个轻量级交叉注意力评分层,并引入了令牌级别分块、令牌预算 top-p 算法(https://huggingface.co/papers?q=top-p%20algorithm)、位置重排(https://huggingface.co/papers?q=positional%20reordering)以及格式无关的查询解析器(https://huggingface.co/papers?q=query%20parser)。我们还为压缩器设计了一个两阶段微调(https://huggingface.co/papers?q=two-stage%20fine-tuning)方案:第一阶段基于 NIAH 风格的数据构建通用检索基础(https://huggingface.co/papers?q=retrieval%20foundation),第二阶段利用多跳和推理数据扩展该基础,以覆盖更广泛的长上下文任务。在 InfiniteBench Code-Debug 上,LongAttnComp 达到或超过全上下文准确率,大幅优于免训练基线,并在来自三个系列的四个目标模型上实现了迁移。在 LongBench v2 上,两阶段方案显著缩小了第一阶段在多文档推理上的差距,同时保持了 Code-Debug 性能。
查看 arXiv 页面(https://arxiv.org/abs/2606.01336)查看 PDF(https://arxiv.org/pdf/2606.01336)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01336)
在你的智能体中获取此论文:
hf papers read 2606.01336
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.01336 即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从此页面链接。
相似文章
ACC:编译智能体轨迹以实现长上下文训练
ACC将多轮智能体轨迹转化为长上下文问答对,用于训练LLMs在无需额外标注的情况下进行长程推理,在MRCR和GraphWalks基准测试上取得了显著提升,同时保持通用能力。
LongAct:利用内在激活模式进行长上下文强化学习
LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。
@ickma2311: 高效AI讲座15:长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是:哪些过…
本文总结了关于长上下文LLM的高效AI讲座15,涵盖用于上下文扩展的RoPE位置插值、大海捞针评估,以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。
面向高效长上下文生成的Context Memorization
提出了attention-state memory,一种免训练方法,将预计算的注意力状态存储在轻量级记忆中,以提高长前缀推理的准确率并降低延迟,在基准测试中优于传统方法。
长时段LLM智能体服务的并行上下文压缩
介绍了用于长时间范围LLM智能体的并行上下文压缩,实现了对摘要量的细粒度控制,并相比多个骨干模型上的顺序同步压缩,降低了端到端延迟。