mitigation-strategies

标签

Cards List
#mitigation-strategies

多语言语言模型中有毒内容检测与缓解策略综述

arXiv cs.CL · 4天前 缓存

本综述综合了关于多语言大语言模型中有毒内容检测与去毒化研究,梳理了威胁模型、任务形式、检测方法和缓解策略,同时指出了持续存在的挑战,如语言覆盖不均衡以及危害定义的文化依赖性。

0 人收藏 0 人点赞
#mitigation-strategies

偏好优化中的虚假相关性学习:机制、后果及通过平局训练的缓解方法

arXiv cs.LG · 2026-05-13 缓存

本文分析了诸如直接偏好优化(DPO)等偏好优化方法中的虚假相关性学习,确定了平均虚假偏差和因果-虚假泄漏等机制。本文提出了使用效用相等的偏好对进行“平局训练”作为一种缓解策略,以减少对虚假特征的依赖,同时不降低因果学习效果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈