structural-sparsity

标签

Cards List
#structural-sparsity

我发布了一个在GPT-2中等规模(约3.54亿参数,115亿token)的无softmax注意力模型:结构稀疏性+瓦片跳过内核实现长上下文显存节省。开放权重+自定义Triton内核[R]

Reddit r/MachineLearning · 4天前 缓存

发布了RRT-355M,一个GPT-2中等规模的无softmax注意力模型,拥有3.54亿参数,从零开始在115亿token上训练,利用结构稀疏性和瓦片跳过内核实现长上下文效率,在22个任务基准测试中达到与GPT-2中等规模相当的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈