representational-drift

标签

Cards List
#representational-drift

微调回归的引力解释

arXiv cs.LG · 2天前 缓存

本文提出了微调回归的引力解释:早期训练形成了占主导地位的行为流形,后续的对齐只轻微地偏移它,从而产生了一个持久的回归方向。实验表明,阻止该方向能以极小的任务成本降低有害性。

0 人收藏 0 人点赞
#representational-drift

丢失还是隐藏?监督持续学习中的概念级遗忘

arXiv cs.LG · 2026-05-19 缓存

本文介绍了一种基于稀疏自编码器(Sparse Autoencoders)的诊断框架,用于分析持续学习中的概念级遗忘,发现大部分遗忘源于表示不可访问性而非信息擦除。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈