structural-sparsity

#structural-sparsity

我发布了一个在GPT-2中等规模（约3.54亿参数，115亿token）的无softmax注意力模型：结构稀疏性+瓦片跳过内核实现长上下文显存节省。开放权重+自定义Triton内核[R]

Reddit r/MachineLearning ↗ · 4天前缓存

发布了RRT-355M，一个GPT-2中等规模的无softmax注意力模型，拥有3.54亿参数，从零开始在115亿token上训练，利用结构稀疏性和瓦片跳过内核实现长上下文效率，在22个任务基准测试中达到与GPT-2中等规模相当的性能。

0 人收藏 0 人点赞