hierarchical-attention

标签

Cards List
#hierarchical-attention

@NousResearch: 今天我们发布Lighthouse Attention,一种基于选择的分层注意力机制,用于长上下文预训练,实现…

X AI KOLs Following · 2026-05-15

NousResearch发布Lighthouse Attention,一种基于选择的分层注意力机制,在98K上下文下实现1.4-1.7倍实际时间加速,在单个B200上的512K上下文下,其前向/后向传播比标准注意力快约17倍,并在530M参数的Llama-3模型上跨50B tokens进行了验证。

0 人收藏 0 人点赞
#hierarchical-attention

使用灯塔注意力的长上下文预训练

Hugging Face Daily Papers · 2026-05-07 缓存

灯塔注意力是一种仅用于训练的、基于层次选择的注意力算法,它降低了因果Transformer长序列训练的计算复杂度,通过恢复阶段后的竞争性最终损失实现更快的预训练。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈