fairness

#fairness

Polar：评估LLM政治偏见的基准

arXiv cs.CL ↗ · 昨天缓存

Polar是一个包含4,026个多选题的基准，用于评估LLM在美国和韩国政治背景下的政治偏见，通过选项级似然度来测量偏见。对38个LLM的实验显示，系统性偏见模式因政治背景、议题类别和呈现语言而异。

0 人收藏 0 人点赞

#fairness

朝向校准、公平且准确的深度伪造检测

arXiv cs.LG ↗ · 3天前缓存

介绍Face-Fairness (FF)，一种用于深度伪造检测中偏见缓解的即插即用框架，其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法，能够提升群体准确率并缩小不同人口统计群体间的性能差距。

0 人收藏 0 人点赞

#fairness

自监督语音识别模型中的说话人群体编码

arXiv cs.CL ↗ · 3天前缓存

研究自监督语音识别模型如何跨层编码说话人群体信息（性别、年龄、方言、民族、母语者状态），以及针对ASR或说话人识别等任务的微调如何影响这种编码。

0 人收藏 0 人点赞

#fairness

帕累托引导的教师对齐实现公平个性化文本生成

arXiv cs.CL ↗ · 3天前缓存

本文提出了一种帕累托引导的教师对齐方法，用于公平的个性化文本生成，旨在平衡语言模型输出中的多个目标。

0 人收藏 0 人点赞

#fairness

PAFO：面向个性化奖励建模的帕累托公平优化

arXiv cs.AI ↗ · 4天前缓存

本文提出PAFO，一种帕累托公平优化框架，用于缓解大语言模型奖励模型中的个性化奖励偏差，在不损害多数用户组的情况下提高少数用户组的准确性。

0 人收藏 0 人点赞

#fairness

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

arXiv cs.AI ↗ · 4天前缓存

本文介绍了AI-MASLD，一个用于医学大语言模型的压力审计框架，揭示了基准准确率如何掩盖严重的安全故障，并展示了开放权重模型在安全维度上可以媲美或超越专有模型。

0 人收藏 0 人点赞

#fairness

Aquifer：面向AI工作负载的有界队列、公平性与动态节流

Reddit r/AI_Agents ↗ · 4天前

Aquifer是一个MCP运行时，提供有界队列、公平性控制和动态节流，以处理AI智能体系统中的速率限制和流量峰值。它还引入了用于动态流状态通信的Aqueduct协议。

0 人收藏 0 人点赞

#fairness

通过将公平性视为对称操作来检测和缓解偏见

arXiv cs.AI ↗ · 5天前缓存

本文提出将公平性视为机器学习分类器中的对称操作，通过基于损失的规范化来实现在固定能力特征的同时，交换敏感属性时的不变性。该框架实现了超过90%的偏见减少，且准确率损失极小，无需因果图知识。

0 人收藏 0 人点赞

#fairness

招聘中的算法单一文化

Hacker News Top ↗ · 5天前缓存

这项覆盖156家雇主、340万求职者的大规模研究揭示，来自单一供应商的招聘算法中的算法单一文化导致了种族差异和系统性拒绝，其中25.87%的黑人求职者和14.74%的亚裔求职者受到不利影响。

0 人收藏 0 人点赞

#fairness

无神经元智能交通——基于表格强化学习的公平地铁网络扩展

arXiv cs.LG ↗ · 2026-06-04 缓存

阿姆斯特丹大学的研究人员提出了一种基于表格强化学习的地铁网络扩展问题方法，表明该方法在性能上与深度强化学习相当，同时平均减少18倍的训练回合数和12倍的碳排放量。该方法还融入了社会公平标准，并在西安和阿姆斯特丹的真实地铁网络上进行了评估。

0 人收藏 0 人点赞

#fairness

人口统计偏差对皮肤病变分类的影响

arXiv cs.AI ↗ · 2026-06-03 缓存

本文研究了人口统计偏差（性别和年龄）对使用ResNet模型进行皮肤病变分类的影响，发现性别偏差源于数据不平衡，而年龄偏差则始终偏向较年轻群体，并评估了多任务学习和对抗性学习的缓解策略。

0 人收藏 0 人点赞

#fairness

话题作为社会人口特征的代理：对话上下文如何影响大语言模型回答

arXiv cs.CL ↗ · 2026-06-03 缓存

本文研究了大语言模型如何因对话上下文而产生不同结果，发现话题而非明确的用户人口特征是导致高风险场景（如薪资建议）中差异的主要驱动因素。

0 人收藏 0 人点赞

#fairness

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

arXiv cs.CL ↗ · 2026-06-02 缓存

本文提出了一个多领域红队框架，用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明，高聚合准确率可能掩盖关键失败，而结合临床专家审核的混合评估对于可信的安全性评估是必要的。

0 人收藏 0 人点赞

#fairness

TrustLDM：语言扩散模型可信度基准测试

arXiv cs.CL ↗ · 2026-06-02 缓存

介绍TrustLDM，一个全面评估语言扩散模型安全性、隐私性和公平性的基准测试，揭示其对齐行为在恶意后上下文环境下会退化。提出自动评估框架TrustLDM-Auto，用于识别脆弱配置。

0 人收藏 0 人点赞

#fairness

针对语言模型中性别化与性别中立生成的神经元级干预

arXiv cs.CL ↗ · 2026-06-01 缓存

本文提出了一种神经元级干预方法，识别语言模型中的性别特定神经元（女性、男性、性别中立），并在保留语义的同时引导句子生成朝向目标性别形式，实验表明该方法可实现精确控制并缓解偏见。

0 人收藏 0 人点赞

#fairness

COFT：面向大型语言模型公平思维链推理的反事实-共形解码

arXiv cs.CL ↗ · 2026-06-01 缓存

COFT是一种无需训练的解码方法，通过应用令牌级公平控制和共形校准来减少大型语言模型思维链推理中的偏见，以最小的计算开销实现30-55%的偏见降低。

0 人收藏 0 人点赞

#fairness

你的多模态语音模型说我长了一张适合广播的脸

arXiv cs.CL ↗ · 2026-06-01 缓存

本文首次对多模态语音识别模型进行了偏见评估，发现在将人脸与音频配对时，跨性别和种族的准确率存在显著差异，这对AI系统的公平性具有重要意义。

0 人收藏 0 人点赞

#fairness

GPF-LiveNews：面向大型语言模型中群体条件框架的流式评估协议

arXiv cs.CL ↗ · 2026-05-29 缓存

本文介绍了GPF-LiveNews，这是一种流式评估协议，用于审查大型语言模型如何根据不同人口群体对实时新闻事件进行差异化框架建构，通过42个身份标签和7个提示族测量语义敏感性和情感差异。

0 人收藏 0 人点赞

#fairness

@WGOV: 招聘中的算法单一文化 Rishi Bommasani, Sarah H. Bana, Kathleen A. Creel, Dan Jurafsky, Percy Liang https:/…

X AI KOLs Timeline ↗ · 2026-05-28 缓存

一份研究论文，分析了招聘中的算法单一文化——即许多雇主使用同一供应商的筛选算法——会导致系统性地拒绝相同的个人和种族群体，使用了300万申请人的数据集。

0 人收藏 0 人点赞

#fairness

发现合作管道：面向序列社会困境的自动研究

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文提出了一种双层自动研究框架，其中外环AI代理自主优化内环LLM策略合成管道，用于多智能体序列社会困境，实现了优越的性能，并发现了在最大最小福利目标下的公平等具体目标机制。

0 人收藏 0 人点赞

fairness

提交意见反馈