标签
提出了一种多模态框架,用于从语音中公平地检测轻度认知障碍,通过梯度反转实现遗忘,以减少人口统计学偏差并提升各子群体的性能。
介绍Face-Fairness (FF),一种用于深度伪造检测中偏见缓解的即插即用框架,其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法,能够提升群体准确率并缩小不同人口统计群体间的性能差距。
本文提出将公平性视为机器学习分类器中的对称操作,通过基于损失的规范化来实现在固定能力特征的同时,交换敏感属性时的不变性。该框架实现了超过90%的偏见减少,且准确率损失极小,无需因果图知识。
BiasGRPO 提出了一种利用群体相对策略优化(GRPO)的框架,通过对采样补全结果的奖励进行归一化,稳定 LLM 中社会偏见的缓解过程,在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型,可无缝集成到多目标 RLHF 流水线中。
本文提出了一个因果框架,用于量化LLM评审中的合理化偏见,即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议,展示了改进的线索不变性。
本文研究了密集检索器中位置偏差的来源是架构还是训练数据,发现训练数据分布强烈影响偏差,而均衡训练可将敏感性降低高达87%,同时保持检索性能。
本文提出了一种并行分块处理长文档的框架,利用LLMs减少累积偏差并提高证据可追溯性,显著降低了遗漏错误和无依据主张。
DebiasRAG 提出了一种无调优、查询特定的去偏框架,利用检索增强生成来减少大语言模型中的社会偏见,同时不降低其原有能力。
本文提出了“解释公平性分类法”(Explanation Fairness Taxonomy, EFT),以分析大型语言模型(LLM)在不同人口群体中证明决策时的差异,研究发现尽管决策本身保持平衡,但在解释的质量和语调上仍存在显著偏差。
本文提出 CAP-TTA,一个测试时适应框架,利用由偏差风险分数触发的预调节 LoRA 更新,在叙述生成过程中缓解大语言模型的毒性和偏差问题,实现更快的优化和相比标准基线更好的流畅性。
本论文通过研究检索增强生成中不同信息源的偏好,探究大语言模型如何处理知识冲突。研究发现大语言模型倾向于选择经机构验证的信息源,但这些偏好可通过重复而被逆转,论文提出了一种方法来减少重复偏差同时保持一致的信息源偏好。
一项系统性研究,评估了改进大语言模型可信性的无训练方法,将方法分为输入、内部和输出级干预,同时分析可信性、实用性和鲁棒性之间的权衡。
OpenAI 发布博客文章,概述其在 ChatGPT 设计中对知识自由的承诺,强调了默认客观性、用户控制和通过 Model Spec 框架的透明原则。该公司突出了新的个性化设置和通过利益相关者反馈评估和减少政治偏见的持续努力。
OpenAI 的 Lilian Weng 讨论了她在应用人工智能研究方面的工作,包括机器人项目、语言模型安全、内容审核以及解决深度学习模型中的社会偏见问题。她强调了在部署尖端人工智能技术时,确保其安全部署与强大的现实应用相辅相成的重要性。
# DALL·E 2 预训练风险缓解措施 来源:[https://openai.com/index/dall-e-2-pre-training-mitigations/](https://openai.com/index/dall-e-2-pre-training-mitigations/) 在主动学习阶段,我们通过为可能存在困难或分类错误的图像收集人工标签,迭代改进分类器。值得注意的是,我们使用了两种主动学习技术从包含数亿个未标记图像的数据集中选择图像,以供人工标注。