标签
来自 Ai2 的一篇讨论比较了 transformer(Olmo 3)和混合模型(Olmo Hybrid),发现 transformer 在复制方面表现出色,而 RNN 在建模承载意义的词汇上更胜一筹,凸显了混合架构日益增长的可行性。
一项在令牌级别比较Olmo Hybrid和Olmo 3 Transformer的研究显示,混合模型能更好地预测有意义的令牌(如名词/动词),而Transformer模型则擅长从输入中复制令牌。