标签
Parallax 是一种新的参数化局部线性注意力形式,去除了数值求解器,在解码方面与 FlashAttention 2/3 相匹配。其有效性取决于优化器,与 Muon 配合有效,但与 AdamW 配合无效,这凸显了优化器几何形状的作用。
介绍Parallax,一种参数化局部线性注意力机制,结合硬件感知优化,提升LLM预训练效率和性能,在0.6B和1.7B规模实现帕累托改进。