标签
本文提出了一种特征空间监测方法,通过在激活空间中跟踪表示漂移来检测LLM在监督微调期间的涌现错位,实现了0.990的AUROC,假阳性率和假阴性率低,优于无监督基线。
STRIDE是一种用于大型语言模型训练数据归因的新框架,它利用稀疏恢复和引导算子在激活空间中建模功能效应,以13倍于先前方法的速度实现了最先进的准确性。
UniSteer 提出了一种文本引导的激活流匹配方法,在激活空间中学习通用条件速度场,无需特定任务干预模块即可实现多功能的 LLM 行为控制与分类任务。
本文探讨了稀疏自动编码器(SAEs)如何捕捉弯曲的神经几何,揭示了SAE特征表示流形的三种不同方式,并提出了一个无监督流程来揭示神经表征中的几何结构。