mechanism-analysis

#mechanism-analysis

重新思考高效注意力在混合架构中的作用

arXiv cs.CL ↗ · 18小时前缓存

本文系统分析了高效注意力模块在混合语言模型架构中的作用，发现不同设计在充分训练下长上下文性能趋于一致，且长距离检索主要由全注意力承担，而高效注意力塑造了优化轨迹，揭示了一个称为“大窗口懒惰”的现象。

0 人收藏 0 人点赞

#mechanism-analysis

arXiv cs.LG ↗ · 2026-06-02 缓存

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明，一个双头Transformer可以实现深度优先搜索，并且在深度分阶段课程下，这种机制会自然地从稀疏奖励信号中涌现。

0 人收藏 0 人点赞