标签
Sigma-Branch 将预训练的稠密网络重构成一个层次化二叉树结构,包含共享主干、路由器和专用叶子节点。在 CIFAR-100、ImageNet-1K 和 ModelNet40 上,每次推理的活跃参数减少 58-60%,同时精度下降不超过基线精确率的 1.72 个百分点。
本文介绍了一种名为Program-of-Layers(PoLar)的方法,它允许大语言模型根据每个输入动态地跳过或循环预训练层,从而在固定深度推理的基础上提高准确性和效率。