OpenAI 安全实践
摘要
OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。
通用人工智能有潜力造福我们生活的几乎每个方面——因此必须负责任地开发和部署它。
查看缓存全文
缓存时间:
2026/04/20 14:47
# OpenAI 安全实践
来源:https://openai.com/index/openai-safety-update/
我们为开发和发布在能力和安全性方面均处于业界领先水平的模型感到自豪。
超过1亿用户和数百万开发者依赖我们安全团队的工作。我们将安全视为必须进行投资并在多个时间维度上取得成功的工作,从对齐当今的模型到我们预期未来将出现的更加强大的系统。这项工作一直在OpenAI全公司范围内进行,我们的投资只会随着时间的推移而增加。
我们相信采取一种平衡、科学的方法,将安全措施从一开始就融入开发过程中。这确保了我们的AI系统既具有创新性又可靠,能够为社会带来益处。
在今日的AI首尔峰会上,我们与业界领袖、政府官员和民间社会成员一起讨论AI安全。虽然仍有更多工作要做,但我们对OpenAI和其他公司今日达成的额外《前沿AI安全承诺》感到鼓舞。这些承诺呼吁企业安全地开发和部署其前沿AI模型,同时分享其风险缓解措施的信息,这与我们已采取的步骤一致。这些步骤包括承诺发布安全框架,如我们去年开发和采用的《准备就绪框架》(https://cdn.openai.com/openai-preparedness-framework-beta.pdf)。
我们分享了我们积极使用和改进的10项实践。
1. **发布前的实证模型红队测试和评估:**我们在发布前根据《准备就绪框架》和自愿承诺,在内部和外部实证评估模型安全性。如果新模型从我们的《准备就绪框架》中超过"中等"风险阈值,在实施足够的安全干预措施将缓解后的分数降回"中等"之前,我们不会发布该模型。超过70位外部专家通过我们的外部红队测试工作帮助评估了与GPT-4o相关的风险,我们利用这些学习结果基于早期检查点的弱点构建评估,以更好地理解后期检查点。
2. **对齐和安全研究:**我们的模型随着时间的推移已变得明显更安全。这可以归因于开发更智能的模型,这些模型通常会犯更少的事实性错误,即使在越狱等对抗条件下也不太可能输出有害内容。这也是由于我们在实践对齐、安全系统和后训练研究方面的集中投资。这些工作致力于改进人工生成的微调数据的质量,以及未来改进我们的模型被训练遵循的指令。我们还在进行并发布针对越狱等攻击大幅改善我们系统稳健性的基础研究。
3. **滥用监控:**随着我们通过API和ChatGPT部署越来越强大的语言模型,我们利用了广泛的工具,包括专用的审核模型以及使用我们自己的模型来监控安全风险和滥用。我们一直在分享一些关键发现,包括与Microsoft联合披露的国家行为体对我们技术的滥用情况,以便其他人能够更好地防范类似风险。我们还使用GPT-4进行内容政策开发和内容审核决策,这能够加快政策完善的反馈循环,并减少人工审核员接触的辱骂材料。
4. **安全的系统方法:**我们在模型生命周期的每个阶段实施一系列安全措施,从预训练到部署。随着我们在开发更安全和更对齐的模型行为方面的进展,我们也投资于预训练数据安全、系统级模型行为引导、用于持续安全改进的数据飞轮和强大的监控基础设施。
5. **保护儿童:**我们安全工作的一个关键重点是保护儿童。我们在ChatGPT和DALL·E中内置了强有力的默认护栏和安全措施,以缓解对儿童的潜在伤害。在2023年,我们与Thorn's Safer合作,以检测、审查和报告用户尝试上传到我们图像工具的儿童性虐待材料到失踪和被剥削儿童全国中心。我们继续与Thorn、Tech Coalition、All Tech is Human、Common Sense Media和更广泛的科技社区合作,以维护《设计中的安全》原则。
6. **选举完整性:**我们与政府和利益相关者合作,防止滥用,确保AI生成内容的透明度,并改进获取准确投票信息的途径。为了实现这一目标,我们推出了一个用于识别DALL·E生成的图像的工具,加入了内容真实性倡议(C2PA)的指导委员会,并在DALL·E 3中集成了C2PA元数据,以帮助人们理解他们在线找到的媒体来源。ChatGPT现在在美国和欧洲向用户指导官方投票信息来源。此外,我们支持美国参议院提议的两党《保护选举免受欺骗性AI法案》,该法案将禁止在政治广告中使用误导性AI生成的内容。
7. **影响评估和政策分析的投资:**我们的影响评估工作在研究、行业规范和政策中产生了广泛影响,包括我们在测量与AI系统相关的化学、生物、放射学和核(CBRN)风险方面的早期工作,以及我们评估语言模型可能影响的不同职业和行业范围的研究。我们也发布关于社会如何最好地管理相关风险的开创性工作——例如,通过与外部专家合作来评估语言模型对影响力操作的影响。
8. **安全和访问控制措施:**我们优先保护我们的客户、知识产权和数据。我们将AI模型作为服务部署到世界各地,通过API控制访问,这样可以实现政策执行。我们的网络安全工作包括限制对训练环境和高价值算法机密的访问(仅限需要了解的基础),内部和外部渗透测试、漏洞赏金计划等。我们相信保护先进AI系统将受益于基础设施安全的发展,并正在探索GPU机密计算等新型控制方法和AI在网络防御中的应用,以保护我们的技术。为了增强网络防御能力,我们通过网络安全赠款计划为第三方安全研究人员提供资金。
9. **与政府合作:**我们与世界各地的政府合作,以推动有效和可适应的AI安全政策的发展。这包括展示我们的工作、分享我们的学习、合作试点政府和其他第三方保证,以及为新标准和法律的公众辩论提供信息。
10. **安全决策制定和董事会监督:**作为《准备就绪框架》的一部分,我们有一个安全决策的运营结构。我们的跨部门安全咨询小组审查模型能力报告,并在部署前提出建议。公司领导做出最终决定,董事会对这些决定进行监督。
这种方法使我们能够在当前能力水平上构建和部署安全且有能力的模型。
随着我们朝着下一个前沿模型迈进,我们意识到我们需要发展我们的实践,特别是提高我们的安全态势,最终对抗来自国家行为体的复杂攻击,并确保我们在主要发布前引入额外的安全测试时间。我们和该领域需要解决一个艰难的问题,以安全和有益的方式提供越来越强大的AI。我们计划在未来几周内分享有关这些不断发展的实践的更多信息。
相似文章
OpenAI Blog
OpenAI阐述了其全面的AI安全方法,强调严格测试、迭代部署、现实世界监控和监管合作,以确保强大的AI系统得到安全构建和使用。
OpenAI Blog
OpenAI及包括亚马逊、谷歌、Meta、微软在内的主要科技公司已承诺在生成式AI的开发、部署和维护中实施“安全设计”原则以保护儿童。该倡议旨在通过模型开发、发布及持续平台安全方面的综合措施,降低儿童性虐待材料生成和传播的风险。
OpenAI Blog
OpenAI发布了一份政策研究论文,确定了四项战略来改进行业在AI安全规范方面的合作:传达风险/收益、技术协作、提高透明度和激励标准。该分析论述了竞争压力如何可能导致对安全性的投资不足,并提出了协调激励措施以促进安全AI开发的机制。
OpenAI Blog
OpenAI 和 Anthropic 发布了首次联合安全评估的研究成果。在这次评估中,两家实验室分别对彼此的模型进行了内部安全和对齐性测试,并公开分享了结果,以提高透明度并发现 AI 安全测试中的潜在漏洞。
OpenAI Blog
# OpenAI 对人工智能和国家安全的态度 来源:[https://openai.com/global-affairs/openais-approach-to-ai-and-national-security/](https://openai.com/global-affairs/openais-approach-to-ai-and-national-security/) OpenAI 今天,白宫发布了一份[关于人工智能的国家安全备忘录(NSM)\(在新窗口中打开\)](https://www.whitehouse.gov/briefing-room/presidential-actions/2024/10/24/memorandum-on-advancing-the-united-states-leadership-in-artificial-intelligen)