@NousResearch: 今天我们发布Lighthouse Attention，一种基于选择的分层注意力机制，用于长上下文预训练，实现…

X AI KOLs Following 2026/05/15 17:22 论文

attention-mechanism long-context hierarchical-attention pre-training speedup nous-research

摘要

NousResearch发布Lighthouse Attention，一种基于选择的分层注意力机制，在98K上下文下实现1.4-1.7倍实际时间加速，在单个B200上的512K上下文下，其前向/后向传播比标准注意力快约17倍，并在530M参数的Llama-3模型上跨50B tokens进行了验证。

今天我们发布Lighthouse Attention，一种基于选择的分层注意力机制，用于长上下文预训练，在98K上下文下实现1.4-1.7倍实际时间加速。它在单个B200上的512K上下文下，其相同的前向+后向传播比标准注意力快约17倍，无需自定义稀疏注意力内核、直通估计器或辅助损失。在训练过程中，查询、键和值被对称地汇聚到一个多分辨率金字塔中。然后我们对每个金字塔头部进行评分，通过top-k级联选择一个小型分层密集子序列，在经过强制因果性的排序过程后，我们使用标准注意力进行token混合。最后进行一次简短的完整注意力恢复，将检查点转换回一个有能力的密集注意力模型。我们使用530M参数的Llama-3模型在50B tokens上进行了验证，并在上下文并行下在32个B200上进行了高达100万token的基准测试。Lighthouse Attention的工作由@bloc97_、@SubhoGhosh02和@theemozilla领导。

查看原文

@NousResearch: 今天我们发布Lighthouse Attention，一种基于选择的分层注意力机制，用于长上下文预训练，实现…

相似文章

Lighthouse Attention（11分钟阅读）

使用灯塔注意力的长上下文预训练

@omarsar0: Nous Research 提出的一个很酷的想法。如果你可以使用一个次二次方复杂度的包装器来加速长上下文预训练，并在部署前移除它，会怎样？

分层稀疏注意力机制的正确实现：迈向无限上下文建模

tencent/HiLS-Attention-7B · Hugging Face

提交意见反馈