variance-inference

#variance-inference

变分线性注意力：用于长上下文 Transformer 的稳定联想记忆

arXiv cs.LG ↗ · 15小时前缓存

本文介绍了变分线性注意力（VLA），这是一种用于稳定长上下文 Transformer 中线性注意力机制记忆状态的方法。VLA 将记忆更新重构为在线正则化最小二乘问题，证明了状态范数的有界性，并展示了相较于标准线性注意力和 DeltaNet 显著的速度提升以及更高的检索准确性。

0 人收藏 0 人点赞