标签
一位知乎答主半年前的预测——下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理——随着Loop Engineering的推进,正变得越来越有现实意义。本文探讨了未来的Transformer架构如何演变为混合模型:将线性复杂度的层用于背景上下文,注意力机制用于精确推理,再加上更细粒度的稀疏性和原生的System 2推理。