representation-control

#representation-control

SAE干预不可靠：干预后受抑制行为的恢复

arXiv cs.LG ↗ · 2026-06-18 缓存

本文证明了对稀疏自编码器（SAE）特征的干预可能不可靠，因为受抑制的行为可以通过残差空间优化恢复，即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。

0 人收藏 0 人点赞

#representation-control

arXiv cs.CL ↗ · 2026-04-20 缓存

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

0 人收藏 0 人点赞