标签
本文提出了微调回归的引力解释:早期训练形成了占主导地位的行为流形,后续的对齐只轻微地偏移它,从而产生了一个持久的回归方向。实验表明,阻止该方向能以极小的任务成本降低有害性。
本文介绍了一种基于稀疏自编码器(Sparse Autoencoders)的诊断框架,用于分析持续学习中的概念级遗忘,发现大部分遗忘源于表示不可访问性而非信息擦除。