减少DALL·E 2的偏见并提高安全性

OpenAI Blog 2022/07/18 07:00 新闻

dalle-2 bias-reduction safety content-filtering ai-safety image-generation

摘要

OpenAI宣布基于研究预览反馈对DALL·E 2的安全系统和偏见缓解进行改进，包括防止欺骗性内容生成的措施和增强的内容过滤。

今天，我们实施了一项新技术，使DALL·E生成的人物图像能更准确地反映世界人口的多样性。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:46

# 减少偏见并提高 DALL·E 2 的安全性来源：https://openai.com/index/reducing-bias-and-improving-safety-in-dall-e-2/ 四月份，我们开始向有限数量的人预览 DALL·E 2 研究，这使我们能够更好地理解系统的能力和局限性，并改进我们的安全系统。在这个预览阶段，早期用户标记了敏感和有偏见的图像，这有助于通知和评估这一新的缓解措施。我们继续研究像 DALL·E 这样的 AI 系统可能如何反映其训练数据中的偏见，以及我们可以用什么不同的方式来解决这些问题。在研究预览期间，我们采取了其他步骤来改进我们的安全系统，包括： - 最小化 DALL·E 被滥用创建欺骗性内容的风险，通过拒绝包含逼真面孔的图像上传以及尝试创建公众人物（包括名人和政治人物）肖像的请求。 - 使我们的内容过滤器更加准确，以便更有效地阻止违反我们[内容政策](https://labs.openai.com/policies/content-policy)的提示词和图像上传，同时仍然允许创意表达。 - 完善自动化和人工监控系统，以防止滥用。这些改进帮助我们获得了邀请更多用户体验 DALL·E 的信心。扩大访问权限是我们[负责任地部署 AI 系统](https://openai.com/index/language-model-safety-and-misuse/)的重要组成部分，因为它允许我们了解更多关于真实世界的使用情况，并继续改进我们的安全系统。

相似文章

DALL·E 2 预训练风险缓解措施

OpenAI Blog

# DALL·E 2 预训练风险缓解措施来源：[https://openai.com/index/dall-e-2-pre-training-mitigations/](https://openai.com/index/dall-e-2-pre-training-mitigations/) 在主动学习阶段，我们通过为可能存在困难或分类错误的图像收集人工标签，迭代改进分类器。值得注意的是，我们使用了两种主动学习技术从包含数亿个未标记图像的数据集中选择图像，以供人工标注。

DALL·E 2 研究预览版更新

OpenAI Blog

OpenAI 宣布扩展 DALL·E 2 研究预览版的访问权限，分享了安全指标以及来自早期用户创建的 300 万张图像的学习成果。该公司计划每周新增最多 1000 名用户，同时继续完善内容政策执行并解决训练数据偏差问题。

DALL·E API 现已推出公开测试版

OpenAI Blog

OpenAI 宣布 DALL·E API 现已推出公开测试版，允许开发者直接将图像生成功能集成到他们的应用中。早期采用者包括 Microsoft、CALA 和 Mixtiles，具备内置安全功能和内容审核。

DALL·E 3 系统卡

OpenAI Blog

# DALL·E 3 系统卡来源：[https://openai.com/index/dall-e-3-system-card/](https://openai.com/index/dall-e-3-system-card/) OpenAI## 摘要 DALL·E 3 是一个人工智能系统，接收文本提示作为输入，生成新图像作为输出。DALL·E 3 在 DALL·E 2 的基础上进行了改进，提高了字幕保真度和图像质量。在本系统卡中，我们分享了为 DALL·E 3 部署所做的工作，包括外部专家红队评估和关键风险的评估

OpenAI 的前沿风险应对方案

OpenAI Blog

OpenAI 公布了其应对前沿 AI 风险的方案细节，并宣布了在 2023 年 7 月自愿承诺的安全措施取得的进展，包括发布 DALL-E 3 系统卡和开发新的准备框架以管理先进 AI 系统可能带来的灾难性风险。

相似文章

DALL·E 2 预训练风险缓解措施

DALL·E 2 研究预览版更新

DALL·E API 现已推出公开测试版

DALL·E 3 系统卡

OpenAI 的前沿风险应对方案

提交意见反馈