attention-alternative

#attention-alternative

关于矩阵循环单元（一种注意力机制的替代方案）的更新 [R]

Reddit r/MachineLearning ↗ · 4天前

关于矩阵循环单元（MRU）的更新，这是一种线性时间复杂度的注意力机制替代方案。作者探索了稳定训练的方法，发现正交矩阵表现不佳，而LDU分解效果最佳，并表明MRU在TinyStories等较大数据集上表现不如Transformer。

0 人收藏 0 人点赞