representation-control

标签

Cards List
#representation-control

SAE干预不可靠:干预后受抑制行为的恢复

arXiv cs.LG · 2026-06-18 缓存

本文证明了对稀疏自编码器(SAE)特征的干预可能不可靠,因为受抑制的行为可以通过残差空间优化恢复,即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。

0 人收藏 0 人点赞
#representation-control

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL · 2026-04-20 缓存

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈