bias-mitigation

#bias-mitigation

通过遗忘实现公平的认知障碍检测

arXiv cs.LG ↗ · 2026-06-18 缓存

提出了一种多模态框架，用于从语音中公平地检测轻度认知障碍，通过梯度反转实现遗忘，以减少人口统计学偏差并提升各子群体的性能。

0 人收藏 0 人点赞

#bias-mitigation

朝向校准、公平且准确的深度伪造检测

arXiv cs.LG ↗ · 2026-06-10 缓存

介绍Face-Fairness (FF)，一种用于深度伪造检测中偏见缓解的即插即用框架，其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法，能够提升群体准确率并缩小不同人口统计群体间的性能差距。

0 人收藏 0 人点赞

#bias-mitigation

通过将公平性视为对称操作来检测和缓解偏见

arXiv cs.AI ↗ · 2026-06-08 缓存

本文提出将公平性视为机器学习分类器中的对称操作，通过基于损失的规范化来实现在固定能力特征的同时，交换敏感属性时的不变性。该框架实现了超过90%的偏见减少，且准确率损失极小，无需因果图知识。

0 人收藏 0 人点赞

#bias-mitigation

BiasGRPO：通过群体相对策略优化稳定高方差奖励环境中的偏见缓解

arXiv cs.AI ↗ · 2026-06-04 缓存

BiasGRPO 提出了一种利用群体相对策略优化（GRPO）的框架，通过对采样补全结果的奖励进行归一化，稳定 LLM 中社会偏见的缓解过程，在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型，可无缝集成到多目标 RLHF 流水线中。

0 人收藏 0 人点赞

#bias-mitigation

忠实还是虚构？LLM评审中合理化偏见的因果框架

arXiv cs.CL ↗ · 2026-05-26 缓存

本文提出了一个因果框架，用于量化LLM评审中的合理化偏见，即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议，展示了改进的线索不变性。

0 人收藏 0 人点赞

#bias-mitigation

密集检索器中的位置偏差是内建的还是从数据中学习到的？

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

本文研究了密集检索器中位置偏差的来源是架构还是训练数据，发现训练数据分布强烈影响偏差，而均衡训练可将敏感性降低高达87%，同时保持检索性能。

0 人收藏 0 人点赞

#bias-mitigation

并行LLM推理实现抗偏差、稳健的概念抽象

arXiv cs.CL ↗ · 2026-05-21 缓存

本文提出了一种并行分块处理长文档的框架，利用LLMs减少累积偏差并提高证据可追溯性，显著降低了遗漏错误和无依据主张。

0 人收藏 0 人点赞

#bias-mitigation

DebiasRAG：一种通过检索增强生成实现大语言模型公平生成的无调优路径

arXiv cs.CL ↗ · 2026-05-18 缓存

DebiasRAG 提出了一种无调优、查询特定的去偏框架，利用检索增强生成来减少大语言模型中的社会偏见，同时不降低其原有能力。

0 人收藏 0 人点赞

#bias-mitigation

大型语言模型中的解释公平性：关于LLM在不同人口群体中如何证明决策的实证分析

arXiv cs.CL ↗ · 2026-05-12 缓存

本文提出了“解释公平性分类法”（Explanation Fairness Taxonomy, EFT），以分析大型语言模型（LLM）在不同人口群体中证明决策时的差异，研究发现尽管决策本身保持平衡，但在解释的质量和语调上仍存在显著偏差。

0 人收藏 0 人点赞

#bias-mitigation

用于叙述生成中分布外去偏差的预调节测试时适应

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出 CAP-TTA，一个测试时适应框架，利用由偏差风险分数触发的预调节 LoRA 更新，在叙述生成过程中缓解大语言模型的毒性和偏差问题，实现更快的优化和相比标准基线更好的流畅性。

0 人收藏 0 人点赞

#bias-mitigation

谁的事实能赢？知识冲突下大语言模型的信息源偏好

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文通过研究检索增强生成中不同信息源的偏好，探究大语言模型如何处理知识冲突。研究发现大语言模型倾向于选择经机构验证的信息源，但这些偏好可通过重复而被逆转，论文提出了一种方法来减少重复偏差同时保持一致的信息源偏好。

0 人收藏 0 人点赞

#bias-mitigation

大语言模型可信性无训练方法的系统研究

arXiv cs.CL ↗ · 2026-04-20 缓存

一项系统性研究，评估了改进大语言模型可信性的无训练方法，将方法分为输入、内部和输出级干预，同时分析可信性、实用性和鲁棒性之间的权衡。

0 人收藏 0 人点赞

#bias-mitigation

设计中的知识自由

OpenAI Blog ↗ · 2025-07-15 缓存

OpenAI 发布博客文章，概述其在 ChatGPT 设计中对知识自由的承诺，强调了默认客观性、用户控制和通过 Model Spec 框架的透明原则。该公司突出了新的个性化设置和通过利益相关者反馈评估和减少政治偏见的持续努力。

0 人收藏 0 人点赞

#bias-mitigation

持续学习的力量

OpenAI Blog ↗ · 2022-12-23 缓存

OpenAI 的 Lilian Weng 讨论了她在应用人工智能研究方面的工作，包括机器人项目、语言模型安全、内容审核以及解决深度学习模型中的社会偏见问题。她强调了在部署尖端人工智能技术时，确保其安全部署与强大的现实应用相辅相成的重要性。

0 人收藏 0 人点赞

#bias-mitigation

# DALL·E 2 预训练风险缓解措施来源：[https://openai.com/index/dall-e-2-pre-training-mitigations/](https://openai.com/index/dall-e-2-pre-training-mitigations/) 在主动学习阶段，我们通过为可能存在困难或分类错误的图像收集人工标签，迭代改进分类器。值得注意的是，我们使用了两种主动学习技术从包含数亿个未标记图像的数据集中选择图像，以供人工标注。

0 人收藏 0 人点赞

bias-mitigation

提交意见反馈