fairness

#fairness

@RishiBommasani: AI正在改变雇主招聘工人的方式。今天，我们发布了过去四年对这一高…

X AI KOLs Following ↗ · 2026-05-26 缓存

Rishi Bommasani宣布发布一项为期四年的研究，该研究基于330万人的实际结果，探讨AI招聘工具的现实影响。

0 人收藏 0 人点赞

#fairness

并列比较加剧语言模型中的方言偏见

arXiv cs.CL ↗ · 2026-05-26 缓存

该研究发现，语言模型在并列比较标准美式英语和非裔美国人白话英语时，会表现出更强的方言偏见，即使经过安全微调也是如此。反事实公平微调可以在孤立情况下减少某些偏见，但在对比设置中并不一致。

0 人收藏 0 人点赞

#fairness

EquiSumm：一种基于性别偏见感知的包容性推文摘要生成框架

arXiv cs.CL ↗ · 2026-05-25 缓存

提出EquiSumm，一种基于性别偏见感知的包容性推文摘要生成框架，确保不同性别群体意见的代表性，解决自动摘要中的群体公平性问题。

0 人收藏 0 人点赞

#fairness

可计算公平性：用于AI资源分配的Boltzmann-Softmax控制

arXiv cs.AI ↗ · 2026-05-25 缓存

本文介绍了可计算公平分配（CFD）框架，该框架利用Boltzmann-Softmax控制在AI资源分配中平衡效率与公平性，并通过AHC++实现实时自适应。

0 人收藏 0 人点赞

#fairness

依赖冷却期不公平；我们应该改用分阶段部署

Lobsters Hottest ↗ · 2026-05-21 缓存

本文指出依赖冷却期不公平地增加了较早时区开发者的负担，并提出基于项目标识符的确定性分阶段部署，以更公平地分配采用率。

0 人收藏 0 人点赞

#fairness

避免表格数据公平半监督学习中的结构性失效模式：基于置信度门控的在线原始-对偶分配

arXiv cs.LG ↗ · 2026-05-19 缓存

本文识别了置信度门控下表格数据公平半监督学习中的结构性失效模式，并提出了在线原始-对偶分配（OPDA）来缓解这些问题，无需针对每个数据集进行调参。

0 人收藏 0 人点赞

#fairness

GESD：超越结果导向的公平性

arXiv cs.LG ↗ · 2026-05-18 缓存

本文提出了GESD，一种面向过程的公平性度量，用于衡量不同子组之间解释稳定性的差异，并将其集成到一个多目标优化框架中，以联合优化效用、结果公平性和解释公平性。

0 人收藏 0 人点赞

#fairness

量化破坏对齐：压缩大语言模型中偏见在不同模型与精度下的涌现

arXiv cs.LG ↗ · 2026-05-18 缓存

本文研究了训练后量化如何在指令调优的大语言模型中引入新偏见，发现3位精度导致6-21%之前无偏见的项目发展出刻板印象，而像困惑度这样的标准指标未能检测到这种退化。

0 人收藏 0 人点赞

#fairness

DebiasRAG：一种通过检索增强生成实现大语言模型公平生成的无调优路径

arXiv cs.CL ↗ · 2026-05-18 缓存

DebiasRAG 提出了一种无调优、查询特定的去偏框架，利用检索增强生成来减少大语言模型中的社会偏见，同时不降低其原有能力。

0 人收藏 0 人点赞

#fairness

为AI评估定义文化能力：基于跨文化交际理论的分类框架

arXiv cs.CL ↗ · 2026-05-18 缓存

本文提出了一种基于跨文化交际理论的三级分类框架，用于评估AI的文化能力——文化认知、文化敏感性和文化能力——旨在提高AI评估在多元文化环境中的有效性和可解释性。

0 人收藏 0 人点赞

#fairness

公平输出，偏见内部：大语言模型在高风险决策中潜在偏见的因果效力与非对称性

arXiv cs.AI ↗ · 2026-05-18 缓存

本文研究了指令微调的大语言模型如何在高风险决策（如抵押贷款承销）中表现出公平输出，同时保留有偏见的内部表征，表明这些隐藏偏见具有因果效力、非对称性，且可通过激活引导加以利用。

0 人收藏 0 人点赞

#fairness

基于稳健训练和弃权的公平且校准的毒性检测

arXiv cs.LG ↗ · 2026-05-15 缓存

本文研究了毒性分类中的公平性问题，涵盖三个维度：排序、校准和弃权。比较了经验风险最小化（ERM）、加权ERM和群体分布鲁棒优化（Group DRO）方法，并结合后处理干预措施，发现校准差异是一种隐蔽的公平性违反，且弃权本身也可能不公平。

0 人收藏 0 人点赞

#fairness

公平模型是否进行公平推理？信用决策中程序公平的反事实解释一致性

arXiv cs.LG ↗ · 2026-05-14 缓存

本文引入了反事实解释一致性（CEC）框架，通过对齐个体与其反事实对应物之间的特征归因，检测并缓解结果公平模型中的隐藏程序偏差，并在信用和收入数据集上进行了实验。

0 人收藏 0 人点赞

#fairness

差分隐私如何影响大语言模型中的社会偏见？一项系统性评估

arXiv cs.CL ↗ · 2026-05-13 缓存

本文对差分隐私如何影响大语言模型中的社会偏见进行了系统性评估，研究发现虽然差分隐私降低了句子评分任务中的偏见，但这一效果并不能推广到所有任务。

0 人收藏 0 人点赞

#fairness

FairHealth：一个面向资源匮乏地区可信医疗AI的开源Python库

arXiv cs.LG ↗ · 2026-05-12 缓存

FairHealth 是一个专为资源匮乏环境下的可信医疗AI设计的开源Python库，提供公平性审计、隐私保护型联邦学习和可解释性模块。

0 人收藏 0 人点赞

#fairness

权重剪枝放大偏见：压缩大语言模型在边缘人工智能中多方法研究

arXiv cs.LG ↗ · 2026-05-12 缓存

本研究揭示了一个“智能剪枝悖论”：诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度，但在边缘设备上部署的大语言模型中显著放大了偏见。

0 人收藏 0 人点赞

#fairness

多目标多智能体赌博机：从学习效率到公平性优化

arXiv cs.LG ↗ · 2026-05-11 缓存

本文针对多目标多智能体多臂赌博机问题，介绍了 Pareto UCB1 Gossip 和模拟 NSW UCB Gossip 算法，旨在解决随机环境下的学习效率与公平性问题。

0 人收藏 0 人点赞

#fairness

超越单一真实标准：作为认识论不公的参考一元论在自动语音识别评估中的体现

arXiv cs.CL ↗ · 2026-05-11 缓存

本文批判了自动语音识别（ASR）评估中使用单一参考真实标准的做法，指出这会导致对失语症患者说话人的认识论不公。文章提出了一种新指标——认识论不公距离（EID），并提倡使用WER-Range（词错率范围）来考虑多样化的转录惯例。

0 人收藏 0 人点赞

#fairness

视觉语言模型在多语言否定理解上的差异

arXiv cs.CL ↗ · 2026-04-22 缓存

MIT 研究人员发布首个涵盖七种语言的多语言否定基准，发现 CLIP 等模型在非拉丁文字上表现不佳，而 MultiCLIP 与 SpaceVLM 在各语言间的提升并不均衡。

0 人收藏 0 人点赞

#fairness

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL ↗ · 2026-04-21 缓存

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移来源：[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实上是正确的（例如，基于血统的

0 人收藏 0 人点赞

fairness

提交意见反馈