L0-regularization

#L0-regularization

ConSA: 通过可学习分配实现混合注意力中的可控稀疏性

arXiv cs.CL ↗ · 2天前缓存

ConSA是一个框架，它通过L0正则化和增广拉格朗日约束，在用户指定的稀疏性目标下学习全注意力和滑动窗口注意力之间的最优分配。在0.6B和1.7B规模的LLM上，它相比基于规则的基线表现出一致的提升。

0 人收藏 0 人点赞