bias-mitigation

#bias-mitigation

大型语言模型中的解释公平性：关于LLM在不同人口群体中如何证明决策的实证分析

arXiv cs.CL ↗ · 昨天缓存

本文提出了“解释公平性分类法”（Explanation Fairness Taxonomy, EFT），以分析大型语言模型（LLM）在不同人口群体中证明决策时的差异，研究发现尽管决策本身保持平衡，但在解释的质量和语调上仍存在显著偏差。

0 人收藏 0 人点赞

#bias-mitigation

用于叙述生成中分布外去偏差的预调节测试时适应

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出 CAP-TTA，一个测试时适应框架，利用由偏差风险分数触发的预调节 LoRA 更新，在叙述生成过程中缓解大语言模型的毒性和偏差问题，实现更快的优化和相比标准基线更好的流畅性。

0 人收藏 0 人点赞

#bias-mitigation

谁的事实能赢？知识冲突下大语言模型的信息源偏好

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文通过研究检索增强生成中不同信息源的偏好，探究大语言模型如何处理知识冲突。研究发现大语言模型倾向于选择经机构验证的信息源，但这些偏好可通过重复而被逆转，论文提出了一种方法来减少重复偏差同时保持一致的信息源偏好。

0 人收藏 0 人点赞

#bias-mitigation

大语言模型可信性无训练方法的系统研究

arXiv cs.CL ↗ · 2026-04-20 缓存

一项系统性研究，评估了改进大语言模型可信性的无训练方法，将方法分为输入、内部和输出级干预，同时分析可信性、实用性和鲁棒性之间的权衡。

0 人收藏 0 人点赞

#bias-mitigation

设计中的知识自由

OpenAI Blog ↗ · 2025-07-15 缓存

OpenAI 发布博客文章，概述其在 ChatGPT 设计中对知识自由的承诺，强调了默认客观性、用户控制和通过 Model Spec 框架的透明原则。该公司突出了新的个性化设置和通过利益相关者反馈评估和减少政治偏见的持续努力。

0 人收藏 0 人点赞

#bias-mitigation

持续学习的力量

OpenAI Blog ↗ · 2022-12-23 缓存

OpenAI 的 Lilian Weng 讨论了她在应用人工智能研究方面的工作，包括机器人项目、语言模型安全、内容审核以及解决深度学习模型中的社会偏见问题。她强调了在部署尖端人工智能技术时，确保其安全部署与强大的现实应用相辅相成的重要性。

0 人收藏 0 人点赞

#bias-mitigation

# DALL·E 2 预训练风险缓解措施来源：[https://openai.com/index/dall-e-2-pre-training-mitigations/](https://openai.com/index/dall-e-2-pre-training-mitigations/) 在主动学习阶段，我们通过为可能存在困难或分类错误的图像收集人工标签，迭代改进分类器。值得注意的是，我们使用了两种主动学习技术从包含数亿个未标记图像的数据集中选择图像，以供人工标注。

0 人收藏 0 人点赞

bias-mitigation

大型语言模型中的解释公平性：关于LLM在不同人口群体中如何证明决策的实证分析

用于叙述生成中分布外去偏差的预调节测试时适应

谁的事实能赢？知识冲突下大语言模型的信息源偏好

大语言模型可信性无训练方法的系统研究

设计中的知识自由

持续学习的力量

DALL·E 2 预训练风险缓解措施

提交意见反馈