local-linear-attention

标签

Cards List
#local-linear-attention

@maximelabonne: Parallax 是一种参数化的局部线性注意力形式,它摒弃了数值求解器,在解码性能上媲美 FA 2/3……

X AI KOLs Following · 4天前 缓存

Parallax 是一种新的参数化局部线性注意力形式,去除了数值求解器,在解码方面与 FlashAttention 2/3 相匹配。其有效性取决于优化器,与 Muon 配合有效,但与 AdamW 配合无效,这凸显了优化器几何形状的作用。

0 人收藏 0 人点赞
#local-linear-attention

Parallax: 参数化局部线性注意力机制用于语言建模

Hugging Face Daily Papers · 2026-05-27 缓存

介绍Parallax,一种参数化局部线性注意力机制,结合硬件感知优化,提升LLM预训练效率和性能,在0.6B和1.7B规模实现帕累托改进。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈