标签
提出 ac-gpt,一种对因果Transformer的简单修改,使其能够在单个前向传递中评估和采样任意条件(过去、未来、混合),同时保持从左到右的顺序和下一个词预测,从而允许现有LLM微调用于任意条件建模。
灯塔注意力是一种仅用于训练的、基于层次选择的注意力算法,它降低了因果Transformer长序列训练的计算复杂度,通过恢复阶段后的竞争性最终损失实现更快的预训练。