标签
本文提出PAFO,一种帕累托公平优化框架,用于缓解大语言模型奖励模型中的个性化奖励偏差,在不损害多数用户组的情况下提高少数用户组的准确性。
本文介绍了AI-MASLD,一个用于医学大语言模型的压力审计框架,揭示了基准准确率如何掩盖严重的安全故障,并展示了开放权重模型在安全维度上可以媲美或超越专有模型。
Aquifer是一个MCP运行时,提供有界队列、公平性控制和动态节流,以处理AI智能体系统中的速率限制和流量峰值。它还引入了用于动态流状态通信的Aqueduct协议。
本文提出将公平性视为机器学习分类器中的对称操作,通过基于损失的规范化来实现在固定能力特征的同时,交换敏感属性时的不变性。该框架实现了超过90%的偏见减少,且准确率损失极小,无需因果图知识。
这项覆盖156家雇主、340万求职者的大规模研究揭示,来自单一供应商的招聘算法中的算法单一文化导致了种族差异和系统性拒绝,其中25.87%的黑人求职者和14.74%的亚裔求职者受到不利影响。
阿姆斯特丹大学的研究人员提出了一种基于表格强化学习的地铁网络扩展问题方法,表明该方法在性能上与深度强化学习相当,同时平均减少18倍的训练回合数和12倍的碳排放量。该方法还融入了社会公平标准,并在西安和阿姆斯特丹的真实地铁网络上进行了评估。
本文研究了人口统计偏差(性别和年龄)对使用ResNet模型进行皮肤病变分类的影响,发现性别偏差源于数据不平衡,而年龄偏差则始终偏向较年轻群体,并评估了多任务学习和对抗性学习的缓解策略。
本文研究了大语言模型如何因对话上下文而产生不同结果,发现话题而非明确的用户人口特征是导致高风险场景(如薪资建议)中差异的主要驱动因素。
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
介绍TrustLDM,一个全面评估语言扩散模型安全性、隐私性和公平性的基准测试,揭示其对齐行为在恶意后上下文环境下会退化。提出自动评估框架TrustLDM-Auto,用于识别脆弱配置。
本文提出了一种神经元级干预方法,识别语言模型中的性别特定神经元(女性、男性、性别中立),并在保留语义的同时引导句子生成朝向目标性别形式,实验表明该方法可实现精确控制并缓解偏见。
COFT是一种无需训练的解码方法,通过应用令牌级公平控制和共形校准来减少大型语言模型思维链推理中的偏见,以最小的计算开销实现30-55%的偏见降低。
本文首次对多模态语音识别模型进行了偏见评估,发现在将人脸与音频配对时,跨性别和种族的准确率存在显著差异,这对AI系统的公平性具有重要意义。
本文介绍了GPF-LiveNews,这是一种流式评估协议,用于审查大型语言模型如何根据不同人口群体对实时新闻事件进行差异化框架建构,通过42个身份标签和7个提示族测量语义敏感性和情感差异。
一份研究论文,分析了招聘中的算法单一文化——即许多雇主使用同一供应商的筛选算法——会导致系统性地拒绝相同的个人和种族群体,使用了300万申请人的数据集。
本文提出了一种双层自动研究框架,其中外环AI代理自主优化内环LLM策略合成管道,用于多智能体序列社会困境,实现了优越的性能,并发现了在最大最小福利目标下的公平等具体目标机制。
Rishi Bommasani宣布发布一项为期四年的研究,该研究基于330万人的实际结果,探讨AI招聘工具的现实影响。
该研究发现,语言模型在并列比较标准美式英语和非裔美国人白话英语时,会表现出更强的方言偏见,即使经过安全微调也是如此。反事实公平微调可以在孤立情况下减少某些偏见,但在对比设置中并不一致。
提出EquiSumm,一种基于性别偏见感知的包容性推文摘要生成框架,确保不同性别群体意见的代表性,解决自动摘要中的群体公平性问题。
本文介绍了可计算公平分配(CFD)框架,该框架利用Boltzmann-Softmax控制在AI资源分配中平衡效率与公平性,并通过AHC++实现实时自适应。