标签
Rishi Bommasani宣布发布一项为期四年的研究,该研究基于330万人的实际结果,探讨AI招聘工具的现实影响。
该研究发现,语言模型在并列比较标准美式英语和非裔美国人白话英语时,会表现出更强的方言偏见,即使经过安全微调也是如此。反事实公平微调可以在孤立情况下减少某些偏见,但在对比设置中并不一致。
提出EquiSumm,一种基于性别偏见感知的包容性推文摘要生成框架,确保不同性别群体意见的代表性,解决自动摘要中的群体公平性问题。
本文介绍了可计算公平分配(CFD)框架,该框架利用Boltzmann-Softmax控制在AI资源分配中平衡效率与公平性,并通过AHC++实现实时自适应。
本文指出依赖冷却期不公平地增加了较早时区开发者的负担,并提出基于项目标识符的确定性分阶段部署,以更公平地分配采用率。
本文识别了置信度门控下表格数据公平半监督学习中的结构性失效模式,并提出了在线原始-对偶分配(OPDA)来缓解这些问题,无需针对每个数据集进行调参。
本文提出了GESD,一种面向过程的公平性度量,用于衡量不同子组之间解释稳定性的差异,并将其集成到一个多目标优化框架中,以联合优化效用、结果公平性和解释公平性。
本文研究了训练后量化如何在指令调优的大语言模型中引入新偏见,发现3位精度导致6-21%之前无偏见的项目发展出刻板印象,而像困惑度这样的标准指标未能检测到这种退化。
DebiasRAG 提出了一种无调优、查询特定的去偏框架,利用检索增强生成来减少大语言模型中的社会偏见,同时不降低其原有能力。
本文提出了一种基于跨文化交际理论的三级分类框架,用于评估AI的文化能力——文化认知、文化敏感性和文化能力——旨在提高AI评估在多元文化环境中的有效性和可解释性。
本文研究了指令微调的大语言模型如何在高风险决策(如抵押贷款承销)中表现出公平输出,同时保留有偏见的内部表征,表明这些隐藏偏见具有因果效力、非对称性,且可通过激活引导加以利用。
本文研究了毒性分类中的公平性问题,涵盖三个维度:排序、校准和弃权。比较了经验风险最小化(ERM)、加权ERM和群体分布鲁棒优化(Group DRO)方法,并结合后处理干预措施,发现校准差异是一种隐蔽的公平性违反,且弃权本身也可能不公平。
本文引入了反事实解释一致性(CEC)框架,通过对齐个体与其反事实对应物之间的特征归因,检测并缓解结果公平模型中的隐藏程序偏差,并在信用和收入数据集上进行了实验。
本文对差分隐私如何影响大语言模型中的社会偏见进行了系统性评估,研究发现虽然差分隐私降低了句子评分任务中的偏见,但这一效果并不能推广到所有任务。
FairHealth 是一个专为资源匮乏环境下的可信医疗AI设计的开源Python库,提供公平性审计、隐私保护型联邦学习和可解释性模块。
本研究揭示了一个“智能剪枝悖论”:诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度,但在边缘设备上部署的大语言模型中显著放大了偏见。
本文针对多目标多智能体多臂赌博机问题,介绍了 Pareto UCB1 Gossip 和模拟 NSW UCB Gossip 算法,旨在解决随机环境下的学习效率与公平性问题。
本文批判了自动语音识别(ASR)评估中使用单一参考真实标准的做法,指出这会导致对失语症患者说话人的认识论不公。文章提出了一种新指标——认识论不公距离(EID),并提倡使用WER-Range(词错率范围)来考虑多样化的转录惯例。
MIT 研究人员发布首个涵盖七种语言的多语言否定基准,发现 CLIP 等模型在非拉丁文字上表现不佳,而 MultiCLIP 与 SpaceVLM 在各语言间的提升并不均衡。
# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移 来源:[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要 经过安全调优的大语言模型(LLM)通常会回避承认人口统计差异,即使这种承认在事实上是正确的(例如,基于血统的