representational-drift

#representational-drift

微调回归的引力解释

arXiv cs.LG ↗ · 2天前缓存

本文提出了微调回归的引力解释：早期训练形成了占主导地位的行为流形，后续的对齐只轻微地偏移它，从而产生了一个持久的回归方向。实验表明，阻止该方向能以极小的任务成本降低有害性。

0 人收藏 0 人点赞

#representational-drift

arXiv cs.LG ↗ · 2026-05-19 缓存

本文介绍了一种基于稀疏自编码器（Sparse Autoencoders）的诊断框架，用于分析持续学习中的概念级遗忘，发现大部分遗忘源于表示不可访问性而非信息擦除。

0 人收藏 0 人点赞