social-bias

#social-bias

基于认识论权利的LLM二阶偏见评估

arXiv cs.CL ↗ · 13小时前缓存

本文介绍了“二阶偏见”，即LLM在判断有偏见内容时所表现出的偏见，并提出了一种基于认识论权利的推理任务来评估它。实验表明，该任务能够规避安全护栏，并揭示LLM评判者中系统性的群体偏见。

0 人收藏 0 人点赞

#social-bias

BiasGRPO：通过群体相对策略优化稳定高方差奖励环境中的偏见缓解

arXiv cs.AI ↗ · 2026-06-04 缓存

BiasGRPO 提出了一种利用群体相对策略优化（GRPO）的框架，通过对采样补全结果的奖励进行归一化，稳定 LLM 中社会偏见的缓解过程，在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型，可无缝集成到多目标 RLHF 流水线中。

0 人收藏 0 人点赞

#social-bias

差分隐私如何影响大语言模型中的社会偏见？一项系统性评估

arXiv cs.CL ↗ · 2026-05-13 缓存

本文对差分隐私如何影响大语言模型中的社会偏见进行了系统性评估，研究发现虽然差分隐私降低了句子评分任务中的偏见，但这一效果并不能推广到所有任务。

0 人收藏 0 人点赞

#social-bias

# 评估 ChatGPT 的公平性来源：[https://openai.com/index/evaluating-fairness-in-chatgpt/](https://openai.com/index/evaluating-fairness-in-chatgpt/) 创建我们的模型需要的不仅仅是数据——我们还精心设计训练流程来减少有害输出并改进实用性。研究表明语言模型仍然可能从训练数据中吸收并重复社会偏见，如性别或种族刻板印象。在这项研究中，我们探索了美国用户名称的微妙线索如何影响

0 人收藏 0 人点赞

social-bias

基于认识论权利的LLM二阶偏见评估

BiasGRPO：通过群体相对策略优化稳定高方差奖励环境中的偏见缓解

差分隐私如何影响大语言模型中的社会偏见？一项系统性评估

评估 ChatGPT 的公平性

提交意见反馈