我分析了25,500次LLM简历筛选来测量招聘偏见,结果令人警醒。

Reddit r/artificial 新闻

摘要

一项分析10个模型共25,500次LLM简历评估的研究发现,由“沉默偏见”驱动的偏见率高达45%,模型会编造听起来专业的借口来惩罚候选人。研究强调了公平性和稳定性的巨大差异,其中Claude、Mistral-Large和Llama 4最为稳定,而Qwen和较早期的Gemini模型则波动较大。

嘿,Reddit,我刚发布了一项研究,分析了25,500次LLM简历评估以衡量招聘偏见。通过在10个不同模型中对完全相同的工作经历交换微小的身份和人口统计变量,一位独立的AI审计员标记出惊人的45%偏见率,这种偏见由“沉默偏见”驱动。模型不会说出明显冒犯的话,而是编造听起来专业的借口来惩罚候选人,比如当我把大学改为MIT后,一个模型突然降低了评分,声称候选人的经验不相关,尽管在基线简历中对完全相同的经验表示赞赏。我们还发现系统之间的稳定性存在高达6倍的差异,Qwen和较老的Gemini模型非常不稳定,而Claude模型、Mistral-Large和Llama 4被证明是最稳定和公平的。最终,AI筛选工具输出的是高度主观、不可预测的意见,由统计噪声而非客观事实驱动,这使得它们在欧盟AI法案等法规下成为巨大的责任。你可以在这里阅读完整的文章并探索我们的交互式数据应用:[https://re-cinq.com/blog/ai-hiring-bias-25500-llm-evaluations](https://re-cinq.com/blog/ai-hiring-bias-25500-llm-evaluations)
查看原文

相似文章

将LLM性别偏见锚定于人类基线:一项跨语言审计

arXiv cs.CL

本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。

定义和评估 LLM 中的政治偏见

OpenAI Blog

OpenAI 推出了一个全面的框架来定义和评估 LLM 中的政治偏见,引入了跨越 5 个偏见轴线、包含 100 个主题的 500 条提示评估。结果显示 GPT-5 模型相比之前的版本实现了 30% 的偏见减少,少于 0.01% 的生产环境中的 ChatGPT 回复存在政治偏见。