标签
发布了RRT-355M,一个GPT-2中等规模的无softmax注意力模型,拥有3.54亿参数,从零开始在115亿token上训练,利用结构稀疏性和瓦片跳过内核实现长上下文效率,在22个任务基准测试中达到与GPT-2中等规模相当的性能。