标签
本文利用基于激活和梯度的信号,分析了Mixtral 8x7B-Instruct在良性及有害提示下的路由行为。研究发现,与安全相关的路由行为是微妙的、依赖层深度的,并且是分布式的,而非由固定的一组专家主导。