标签
来自 Ai2 的一篇讨论比较了 transformer(Olmo 3)和混合模型(Olmo Hybrid),发现 transformer 在复制方面表现出色,而 RNN 在建模承载意义的词汇上更胜一筹,凸显了混合架构日益增长的可行性。