标签
本综述综合了关于多语言大语言模型中有毒内容检测与去毒化研究,梳理了威胁模型、任务形式、检测方法和缓解策略,同时指出了持续存在的挑战,如语言覆盖不均衡以及危害定义的文化依赖性。
本文分析了诸如直接偏好优化(DPO)等偏好优化方法中的虚假相关性学习,确定了平均虚假偏差和因果-虚假泄漏等机制。本文提出了使用效用相等的偏好对进行“平局训练”作为一种缓解策略,以减少对虚假特征的依赖,同时不降低因果学习效果。