scaling-behavior

标签

Cards List
#scaling-behavior

重新思考高效注意力在混合架构中的作用

arXiv cs.CL · 16小时前 缓存

本文系统分析了高效注意力模块在混合语言模型架构中的作用,发现不同设计在充分训练下长上下文性能趋于一致,且长距离检索主要由全注意力承担,而高效注意力塑造了优化轨迹,揭示了一个称为“大窗口懒惰”的现象。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈