标签
本文介绍了上下文就绪 Transformer,一种循环架构,在 Transformer 块之前对 token 进行预上下文化,在匹配或超越标准 Transformer 性能的同时,实现了显著的推理加速(例如在 A100 上达到 1.7 倍),且层数更少。