标签
ConSA是一个框架,它通过L0正则化和增广拉格朗日约束,在用户指定的稀疏性目标下学习全注意力和滑动窗口注意力之间的最优分配。在0.6B和1.7B规模的LLM上,它相比基于规则的基线表现出一致的提升。