architecture-aware

标签

Cards List
#architecture-aware

架构感知的强化学习使滑动窗口注意力在数学推理中具有竞争力

arXiv cs.AI · 4天前 缓存

本文介绍 SWARR,一种两阶段方案,结合监督微调和强化学习,使滑动窗口注意力模型适应数学推理,表明强化学习能缩小其与自注意力的性能差距,同时保持效率优势。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈