mitigation-strategies

#mitigation-strategies

多语言语言模型中有毒内容检测与缓解策略综述

arXiv cs.CL ↗ · 4天前缓存

本综述综合了关于多语言大语言模型中有毒内容检测与去毒化研究，梳理了威胁模型、任务形式、检测方法和缓解策略，同时指出了持续存在的挑战，如语言覆盖不均衡以及危害定义的文化依赖性。

0 人收藏 0 人点赞

#mitigation-strategies

arXiv cs.LG ↗ · 2026-05-13 缓存

本文分析了诸如直接偏好优化（DPO）等偏好优化方法中的虚假相关性学习，确定了平均虚假偏差和因果-虚假泄漏等机制。本文提出了使用效用相等的偏好对进行“平局训练”作为一种缓解策略，以减少对虚假特征的依赖，同时不降低因果学习效果。

0 人收藏 0 人点赞