标签
提出了Generic TB-Coverage,一种覆盖感知的专家剪枝方法,用于稀疏Mixture-of-Experts语言模型,该方法仅使用通用文本语料库进行校准,并保留跨语料库专家覆盖,从而提高了准确率并减少了困惑度下降。