标签
本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。
WriteSAE 引入了第一个稀疏自编码器,能够分解状态空间模型和混合循环语言模型中的矩阵缓存写入,相比现有方法实现了更优的令牌级干预。
本文认为,循环模型中鲁棒的状态跟踪取决于误差控制动力学,而不仅仅取决于表达能力,证明了仿射循环网络会遭受累积误差的影响,从而限制了其有效视野。