我分析了25,500次LLM简历筛选来测量招聘偏见，结果令人警醒。

Reddit r/artificial 2026/06/01 13:46 新闻

llm-bias hiring-bias ai-audit resume-screening bias-detection ai-fairness

摘要

一项分析10个模型共25,500次LLM简历评估的研究发现，由“沉默偏见”驱动的偏见率高达45%，模型会编造听起来专业的借口来惩罚候选人。研究强调了公平性和稳定性的巨大差异，其中Claude、Mistral-Large和Llama 4最为稳定，而Qwen和较早期的Gemini模型则波动较大。

嘿，Reddit，我刚发布了一项研究，分析了25,500次LLM简历评估以衡量招聘偏见。通过在10个不同模型中对完全相同的工作经历交换微小的身份和人口统计变量，一位独立的AI审计员标记出惊人的45%偏见率，这种偏见由“沉默偏见”驱动。模型不会说出明显冒犯的话，而是编造听起来专业的借口来惩罚候选人，比如当我把大学改为MIT后，一个模型突然降低了评分，声称候选人的经验不相关，尽管在基线简历中对完全相同的经验表示赞赏。我们还发现系统之间的稳定性存在高达6倍的差异，Qwen和较老的Gemini模型非常不稳定，而Claude模型、Mistral-Large和Llama 4被证明是最稳定和公平的。最终，AI筛选工具输出的是高度主观、不可预测的意见，由统计噪声而非客观事实驱动，这使得它们在欧盟AI法案等法规下成为巨大的责任。你可以在这里阅读完整的文章并探索我们的交互式数据应用：[https://re-cinq.com/blog/ai-hiring-bias-25500-llm-evaluations](https://re-cinq.com/blog/ai-hiring-bias-25500-llm-evaluations)

查看原文

我分析了25,500次LLM简历筛选来测量招聘偏见，结果令人警醒。

相似文章

大语言模型能公平招聘吗？简历筛选中的种族偏见

我让55个LLM互相盲评（22k条评价，全部公开）。每个有足够数据的模型家族都偏向自家兄弟。Qwen的评委给Qwen加分约0.9分。Mistral给自己的扣分约1.0分。

将LLM性别偏见锚定于人类基线：一项跨语言审计

定义和评估 LLM 中的政治偏见

公平输出，偏见内部：大语言模型在高风险决策中潜在偏见的因果效力与非对称性

提交意见反馈