architecture-aware

标签

#architecture-aware

架构感知的强化学习使滑动窗口注意力在数学推理中具有竞争力

arXiv cs.AI ↗ · 4天前缓存

本文介绍 SWARR，一种两阶段方案，结合监督微调和强化学习，使滑动窗口注意力模型适应数学推理，表明强化学习能缩小其与自注意力的性能差距，同时保持效率优势。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈