标签
研究者提出HSPD,一种语料库级解毒流程,可在保留语义的前提下重写预训练数据中的有毒片段,在GPT-2 XL、LLaMA-2、OPT与Falcon模型上实现SOTA毒性降低。
本文提出 CAP-TTA,一个测试时适应框架,利用由偏差风险分数触发的预调节 LoRA 更新,在叙述生成过程中缓解大语言模型的毒性和偏差问题,实现更快的优化和相比标准基线更好的流畅性。