fairness

#fairness

PAFO：面向个性化奖励建模的帕累托公平优化

arXiv cs.AI ↗ · 16小时前缓存

本文提出PAFO，一种帕累托公平优化框架，用于缓解大语言模型奖励模型中的个性化奖励偏差，在不损害多数用户组的情况下提高少数用户组的准确性。

0 人收藏 0 人点赞

#fairness

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

arXiv cs.AI ↗ · 16小时前缓存

本文介绍了AI-MASLD，一个用于医学大语言模型的压力审计框架，揭示了基准准确率如何掩盖严重的安全故障，并展示了开放权重模型在安全维度上可以媲美或超越专有模型。

0 人收藏 0 人点赞

#fairness

Aquifer：面向AI工作负载的有界队列、公平性与动态节流

Reddit r/AI_Agents ↗ · 18小时前

Aquifer是一个MCP运行时，提供有界队列、公平性控制和动态节流，以处理AI智能体系统中的速率限制和流量峰值。它还引入了用于动态流状态通信的Aqueduct协议。

0 人收藏 0 人点赞

#fairness

通过将公平性视为对称操作来检测和缓解偏见

arXiv cs.AI ↗ · 昨天缓存

本文提出将公平性视为机器学习分类器中的对称操作，通过基于损失的规范化来实现在固定能力特征的同时，交换敏感属性时的不变性。该框架实现了超过90%的偏见减少，且准确率损失极小，无需因果图知识。

0 人收藏 0 人点赞

#fairness

招聘中的算法单一文化

Hacker News Top ↗ · 昨天缓存

这项覆盖156家雇主、340万求职者的大规模研究揭示，来自单一供应商的招聘算法中的算法单一文化导致了种族差异和系统性拒绝，其中25.87%的黑人求职者和14.74%的亚裔求职者受到不利影响。

0 人收藏 0 人点赞

#fairness

无神经元智能交通——基于表格强化学习的公平地铁网络扩展

arXiv cs.LG ↗ · 5天前缓存

阿姆斯特丹大学的研究人员提出了一种基于表格强化学习的地铁网络扩展问题方法，表明该方法在性能上与深度强化学习相当，同时平均减少18倍的训练回合数和12倍的碳排放量。该方法还融入了社会公平标准，并在西安和阿姆斯特丹的真实地铁网络上进行了评估。

0 人收藏 0 人点赞

#fairness

人口统计偏差对皮肤病变分类的影响

arXiv cs.AI ↗ · 6天前缓存

本文研究了人口统计偏差（性别和年龄）对使用ResNet模型进行皮肤病变分类的影响，发现性别偏差源于数据不平衡，而年龄偏差则始终偏向较年轻群体，并评估了多任务学习和对抗性学习的缓解策略。

0 人收藏 0 人点赞

#fairness

话题作为社会人口特征的代理：对话上下文如何影响大语言模型回答

arXiv cs.CL ↗ · 6天前缓存

本文研究了大语言模型如何因对话上下文而产生不同结果，发现话题而非明确的用户人口特征是导致高风险场景（如薪资建议）中差异的主要驱动因素。

0 人收藏 0 人点赞

#fairness

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

arXiv cs.CL ↗ · 2026-06-02 缓存

本文提出了一个多领域红队框架，用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明，高聚合准确率可能掩盖关键失败，而结合临床专家审核的混合评估对于可信的安全性评估是必要的。

0 人收藏 0 人点赞

#fairness

TrustLDM：语言扩散模型可信度基准测试

arXiv cs.CL ↗ · 2026-06-02 缓存

介绍TrustLDM，一个全面评估语言扩散模型安全性、隐私性和公平性的基准测试，揭示其对齐行为在恶意后上下文环境下会退化。提出自动评估框架TrustLDM-Auto，用于识别脆弱配置。

0 人收藏 0 人点赞

#fairness

针对语言模型中性别化与性别中立生成的神经元级干预

arXiv cs.CL ↗ · 2026-06-01 缓存

本文提出了一种神经元级干预方法，识别语言模型中的性别特定神经元（女性、男性、性别中立），并在保留语义的同时引导句子生成朝向目标性别形式，实验表明该方法可实现精确控制并缓解偏见。

0 人收藏 0 人点赞

#fairness

COFT：面向大型语言模型公平思维链推理的反事实-共形解码

arXiv cs.CL ↗ · 2026-06-01 缓存

COFT是一种无需训练的解码方法，通过应用令牌级公平控制和共形校准来减少大型语言模型思维链推理中的偏见，以最小的计算开销实现30-55%的偏见降低。

0 人收藏 0 人点赞

#fairness

你的多模态语音模型说我长了一张适合广播的脸

arXiv cs.CL ↗ · 2026-06-01 缓存

本文首次对多模态语音识别模型进行了偏见评估，发现在将人脸与音频配对时，跨性别和种族的准确率存在显著差异，这对AI系统的公平性具有重要意义。

0 人收藏 0 人点赞

#fairness

GPF-LiveNews：面向大型语言模型中群体条件框架的流式评估协议

arXiv cs.CL ↗ · 2026-05-29 缓存

本文介绍了GPF-LiveNews，这是一种流式评估协议，用于审查大型语言模型如何根据不同人口群体对实时新闻事件进行差异化框架建构，通过42个身份标签和7个提示族测量语义敏感性和情感差异。

0 人收藏 0 人点赞

#fairness

@WGOV: 招聘中的算法单一文化 Rishi Bommasani, Sarah H. Bana, Kathleen A. Creel, Dan Jurafsky, Percy Liang https:/…

X AI KOLs Timeline ↗ · 2026-05-28 缓存

一份研究论文，分析了招聘中的算法单一文化——即许多雇主使用同一供应商的筛选算法——会导致系统性地拒绝相同的个人和种族群体，使用了300万申请人的数据集。

0 人收藏 0 人点赞

#fairness

发现合作管道：面向序列社会困境的自动研究

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文提出了一种双层自动研究框架，其中外环AI代理自主优化内环LLM策略合成管道，用于多智能体序列社会困境，实现了优越的性能，并发现了在最大最小福利目标下的公平等具体目标机制。

0 人收藏 0 人点赞

#fairness

@RishiBommasani: AI正在改变雇主招聘工人的方式。今天，我们发布了过去四年对这一高…

X AI KOLs Following ↗ · 2026-05-26 缓存

Rishi Bommasani宣布发布一项为期四年的研究，该研究基于330万人的实际结果，探讨AI招聘工具的现实影响。

0 人收藏 0 人点赞

#fairness

并列比较加剧语言模型中的方言偏见

arXiv cs.CL ↗ · 2026-05-26 缓存

该研究发现，语言模型在并列比较标准美式英语和非裔美国人白话英语时，会表现出更强的方言偏见，即使经过安全微调也是如此。反事实公平微调可以在孤立情况下减少某些偏见，但在对比设置中并不一致。

0 人收藏 0 人点赞

#fairness

EquiSumm：一种基于性别偏见感知的包容性推文摘要生成框架

arXiv cs.CL ↗ · 2026-05-25 缓存

提出EquiSumm，一种基于性别偏见感知的包容性推文摘要生成框架，确保不同性别群体意见的代表性，解决自动摘要中的群体公平性问题。

0 人收藏 0 人点赞

#fairness

可计算公平性：用于AI资源分配的Boltzmann-Softmax控制

arXiv cs.AI ↗ · 2026-05-25 缓存

本文介绍了可计算公平分配（CFD）框架，该框架利用Boltzmann-Softmax控制在AI资源分配中平衡效率与公平性，并通过AHC++实现实时自适应。

0 人收藏 0 人点赞

fairness

提交意见反馈