标签
本文系统测试了用于大语言模型欺骗检测的线性探头,发现它们在分布偏移下失效,但风格增强型探头能恢复性能,并揭示欺骗是通过分布式亚阈值特征编码的。
本文介绍了MMOT,一种基于最优传输理论的在线混合模型学习框架,通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略,用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。