hierarchical-attention

#hierarchical-attention

Prism Transformer: 渐进式头调度用于层级注意力处理

arXiv cs.LG ↗ · 2026-06-29 缓存

Prism Transformer 用渐进式头调度替代了统一的多头注意力机制，该调度在层间逐步增加头的数量，从而在不增加参数或计算量的情况下实现从局部到全局的层级结构。在124M、354M和757M三个模型规模上，它在语言建模和零样本基准测试中始终优于标准Transformer。

0 人收藏 0 人点赞

#hierarchical-attention

arXiv cs.LG ↗ · 2026-06-18 缓存

提出了一种基于重叠Schwarz领域分解的层次注意力机制，用局部和粗糙块的两级加性结构替代稠密的全局低秩注意力，训练更快，准确度更高，且参数更少。

0 人收藏 0 人点赞

#hierarchical-attention

X AI KOLs Following ↗ · 2026-05-15

NousResearch发布Lighthouse Attention，一种基于选择的分层注意力机制，在98K上下文下实现1.4-1.7倍实际时间加速，在单个B200上的512K上下文下，其前向/后向传播比标准注意力快约17倍，并在530M参数的Llama-3模型上跨50B tokens进行了验证。

0 人收藏 0 人点赞

#hierarchical-attention

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

灯塔注意力是一种仅用于训练的、基于层次选择的注意力算法，它降低了因果Transformer长序列训练的计算复杂度，通过恢复阶段后的竞争性最终损失实现更快的预训练。

0 人收藏 0 人点赞