@NousResearch: 今天我们发布Lighthouse Attention,一种基于选择的分层注意力机制,用于长上下文预训练,实现…

X AI KOLs Following 论文

摘要

NousResearch发布Lighthouse Attention,一种基于选择的分层注意力机制,在98K上下文下实现1.4-1.7倍实际时间加速,在单个B200上的512K上下文下,其前向/后向传播比标准注意力快约17倍,并在530M参数的Llama-3模型上跨50B tokens进行了验证。

今天我们发布Lighthouse Attention,一种基于选择的分层注意力机制,用于长上下文预训练,在98K上下文下实现1.4-1.7倍实际时间加速。它在单个B200上的512K上下文下,其相同的前向+后向传播比标准注意力快约17倍,无需自定义稀疏注意力内核、直通估计器或辅助损失。在训练过程中,查询、键和值被对称地汇聚到一个多分辨率金字塔中。然后我们对每个金字塔头部进行评分,通过top-k级联选择一个小型分层密集子序列,在经过强制因果性的排序过程后,我们使用标准注意力进行token混合。最后进行一次简短的完整注意力恢复,将检查点转换回一个有能力的密集注意力模型。我们使用530M参数的Llama-3模型在50B tokens上进行了验证,并在上下文并行下在32个B200上进行了高达100万token的基准测试。Lighthouse Attention的工作由@bloc97_、@SubhoGhosh02和@theemozilla领导。
查看原文

相似文章

Lighthouse Attention(11分钟阅读)

TLDR AI

Lighthouse Attention是一种基于选择的分层注意力机制,通过在前向+反向传播中实现约17倍的速度提升(在512K上下文下),并在98K上下文中实现1.4–1.7倍的端到端加速,从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。

使用灯塔注意力的长上下文预训练

Hugging Face Daily Papers

灯塔注意力是一种仅用于训练的、基于层次选择的注意力算法,它降低了因果Transformer长序列训练的计算复杂度,通过恢复阶段后的竞争性最终损失实现更快的预训练。