标签
CBD提出了一种仅通过API的黑盒遗忘框架,用于大语言模型。该框架利用两个辅助模型在保留数据和目标数据之间创建受控行为差异,相比现有方法实现了更优的遗忘-效用权衡。
RepSelect提出了一种稳健的LLM遗忘方法,通过压缩权重梯度的前主成分来隔离遗忘集特定的表示,在多种模型家族上相比现有基线实现了4-50倍更好的对抗重学习攻击的鲁棒性。
论文提出了遗忘深度评分(UDS),这是一种利用激活修补来量化目标知识从大语言模型中被彻底擦除程度的指标,在多种遗忘方法上实现了最先进的忠实度和鲁棒性。
本文介绍了次要分量遗忘(MCU),这是一种针对大语言模型遗忘的新颖方法,通过靶向表征中的次要分量来抵御重学攻击。它通过关注模型谱结构中的鲁棒方向,解决了现有方法的脆弱性问题。