标签
本文证明了对稀疏自编码器(SAE)特征的干预可能不可靠,因为受抑制的行为可以通过残差空间优化恢复,即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。
FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。