hybrid-architectures

#hybrid-architectures

重新思考高效注意力在混合架构中的作用

arXiv cs.CL ↗ · 19小时前缓存

本文系统分析了高效注意力模块在混合语言模型架构中的作用，发现不同设计在充分训练下长上下文性能趋于一致，且长距离检索主要由全注意力承担，而高效注意力塑造了优化轨迹，揭示了一个称为“大窗口懒惰”的现象。

0 人收藏 0 人点赞

#hybrid-architectures

arXiv cs.LG ↗ · 2026-05-08 缓存

本文针对混合和循环大语言模型提出了稀疏前缀缓存方法，该方法在有限的检查点位置存储循环状态，从而避免密集缓存，同时最小化重计算量。在真实数据上，该方法优于标准启发式方法，尤其是在请求共享大量但非完全相同的前缀时。

0 人收藏 1 人点赞