@NousResearch: 今天我们发布Lighthouse Attention,一种基于选择的分层注意力机制,用于长上下文预训练,实现…
摘要
NousResearch发布Lighthouse Attention,一种基于选择的分层注意力机制,在98K上下文下实现1.4-1.7倍实际时间加速,在单个B200上的512K上下文下,其前向/后向传播比标准注意力快约17倍,并在530M参数的Llama-3模型上跨50B tokens进行了验证。
今天我们发布Lighthouse Attention,一种基于选择的分层注意力机制,用于长上下文预训练,在98K上下文下实现1.4-1.7倍实际时间加速。它在单个B200上的512K上下文下,其相同的前向+后向传播比标准注意力快约17倍,无需自定义稀疏注意力内核、直通估计器或辅助损失。在训练过程中,查询、键和值被对称地汇聚到一个多分辨率金字塔中。然后我们对每个金字塔头部进行评分,通过top-k级联选择一个小型分层密集子序列,在经过强制因果性的排序过程后,我们使用标准注意力进行token混合。最后进行一次简短的完整注意力恢复,将检查点转换回一个有能力的密集注意力模型。我们使用530M参数的Llama-3模型在50B tokens上进行了验证,并在上下文并行下在32个B200上进行了高达100万token的基准测试。Lighthouse Attention的工作由@bloc97_、@SubhoGhosh02和@theemozilla领导。
相似文章
Lighthouse Attention(11分钟阅读)
Lighthouse Attention是一种基于选择的分层注意力机制,通过在前向+反向传播中实现约17倍的速度提升(在512K上下文下),并在98K上下文中实现1.4–1.7倍的端到端加速,从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。
使用灯塔注意力的长上下文预训练
灯塔注意力是一种仅用于训练的、基于层次选择的注意力算法,它降低了因果Transformer长序列训练的计算复杂度,通过恢复阶段后的竞争性最终损失实现更快的预训练。
@omarsar0: Nous Research 提出的一个很酷的想法。如果你可以使用一个次二次方复杂度的包装器来加速长上下文预训练,并在部署前移除它,会怎样?
Nous Research 推出了 Lighthouse Attention,这是一种仅用于训练的次二次方包装器,旨在加速扩展点积注意力(SDPA)的长上下文预训练。该包装器可在部署前移除,从而保持原生推理效率。
@tilderesearch: https://x.com/tilderesearch/status/2061771450168889432
Wall Attention 将对角遗忘门泛化到 softmax 注意力,实现了从 4k 到 160k+ 上下文的零样本最先进长度外推,并且在预训练中优于 RoPE 和 FoX。它作为即插即用的替换方案发布,附带开源的 Triton 内核。
Parallax: 参数化局部线性注意力机制用于语言建模
介绍Parallax,一种参数化局部线性注意力机制,结合硬件感知优化,提升LLM预训练效率和性能,在0.6B和1.7B规模实现帕累托改进。