efficient-attention

#efficient-attention

面向长上下文大语言模型的训练-推理一致性分段执行

arXiv cs.CL ↗ · 16小时前缓存

本文提出了一种面向长上下文大语言模型的训练-推理一致性分段执行框架，旨在解决全上下文训练与受限推理机制之间的不匹配问题，在显著降低内存占用的同时实现了相当的性能。

0 人收藏 0 人点赞

#efficient-attention

X AI KOLs Following ↗ · 昨天缓存

Nous Research 推出了 Lighthouse Attention，这是一种仅用于训练的次二次方包装器，旨在加速扩展点积注意力（SDPA）的长上下文预训练。该包装器可在部署前移除，从而保持原生推理效率。

0 人收藏 0 人点赞

#efficient-attention

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 Toeplitz MLP Mixer（TMM），这是一种新型架构，它用 Toeplitz 矩阵乘法取代注意力机制，从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。

0 人收藏 0 人点赞