标签
CAT 引入了一个框架,利用模型自身置信信号,根据问题难度自主调整推理长度,减少过度思考,提高大型推理模型的推理效率。
提出了一种置信感知的SwiGLU(κ-SwiGLU),它根据token级路由置信度调整混合专家模型中专家门控的锐度,以最小的计算开销提升了性能。