标签
本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。
本文提出了一种神经元级干预方法,识别语言模型中的性别特定神经元(女性、男性、性别中立),并在保留语义的同时引导句子生成朝向目标性别形式,实验表明该方法可实现精确控制并缓解偏见。
本文首次对多模态语音识别模型进行了偏见评估,发现在将人脸与音频配对时,跨性别和种族的准确率存在显著差异,这对AI系统的公平性具有重要意义。
提出EquiSumm,一种基于性别偏见感知的包容性推文摘要生成框架,确保不同性别群体意见的代表性,解决自动摘要中的群体公平性问题。
本文研究了链式思维提示对大型语言模型中性别偏见的影响,发现它并不能持续减少偏见,而且表面上的改进源于浅层服从而非真正的理解。
一项研究发现,为男女生成的相同AI简历获得了显著不同的评价,女性的简历更易因其能力和可信度受到质疑。这反映出人们对AI使用认知中存在的广泛性别偏见,并可能进一步加剧AI应用的差距。