我们的AI安全方法论

OpenAI Blog 新闻

摘要

OpenAI阐述了其全面的AI安全方法,强调严格测试、迭代部署、现实世界监控和监管合作,以确保强大的AI系统得到安全构建和使用。

确保AI系统得到安全构建、部署和使用对我们的使命至关重要。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:55

# 我们对 AI 安全的态度 来源:https://openai.com/index/our-approach-to-ai-safety/ 确保 AI 系统的构建、部署和使用是安全的,这对我们的使命至关重要。 OpenAI 致力于保持强大 AI 的安全性和广泛有益性。我们了解我们的 AI 工具为人们带来的诸多好处。全球用户告诉我们,ChatGPT 有助于提高他们的工作效率、增强创意,并提供定制化的学习体验。我们也认识到,与任何技术一样,这些工具也存在真实风险——因此我们在系统的各个层面都致力于将安全性内置其中。 在发布任何新系统之前,我们进行严格的测试,邀请外部专家提供反馈,通过强化学习(人类反馈)等技术改进模型行为,并建立广泛的安全和监控系统。 例如,在我们最新的模型 GPT-4 完成训练后,我们花费了超过 6 个月的时间进行跨部门协作,以提高其安全性和对齐度,然后才向公众发布。 我们相信强大的 AI 系统应该接受严格的安全评估。需要通过监管来确保采纳这些实践,我们也在积极与政府合作,探讨最佳的监管形式。 我们尽力在部署前预防可预见的风险,但在实验室中能学到的东西是有限的。尽管进行了广泛的研究和测试,我们无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用它的所有方式。这就是为什么我们相信从真实使用中学习是随着时间推移创建和发布越来越安全的 AI 系统的关键组成部分。 我们谨慎而渐进地发布新 AI 系统——采取充分的保障措施——让越来越多的人群使用,并根据我们学到的知识持续改进。 我们通过自有服务和 API 提供最强大的模型,使开发者能够将这项技术直接集成到他们的应用中。这使我们能够监控和防止滥用,并不断构建应对人们实际滥用我们系统方式的缓解措施——而不仅仅是关于滥用可能样式的理论。 真实使用也促使我们制定越来越细致的政策,反对代表对人们造成真实风险的行为,同时仍然允许我们技术的许多有益用途。 至关重要的是,我们相信社会必须有时间来适应能力日益提强的 AI,每个受此技术影响的人都应该对 AI 的进一步发展有重要话语权。迭代部署帮助我们比没有这些工具的第一手体验更有效地将各个利益相关者纳入 AI 技术采纳的对话中。 我们安全工作的一个关键重点是保护儿童。我们要求使用我们 AI 工具的人必须年满 18 岁,或在获得父母同意的情况下年满 13 岁,我们正在探索验证选项。 我们不允许我们的技术用于生成仇恨、骚扰、暴力或成人内容等。我们最新的模型 GPT-4 对不允许内容的请求的响应可能性比 GPT-3.5 降低 82%,我们已建立了一套强大的滥用监控系统。GPT-4 现已向 ChatGPT Plus 订阅者提供,我们希望随着时间推移向更多人提供。 我们已做出重大努力来最小化我们的模型生成有害儿童内容的可能性。例如,当用户尝试将已知的儿童性虐待材料上传到我们的图像工具时,我们使用 Thorn 的 Safer 来检测、审查并向失踪和被剥削儿童全国中心报告。 除了我们的默认安全护栏外,我们还与非营利组织 Khan Academy 等开发者合作——他们构建了 AI 驱动的助手,既可作为学生的虚拟家教,也可作为教师的课堂助手——为他们的用例制定定制化的安全缓解措施。我们也在开发允许开发者为模型输出设定更严格标准的功能,以更好地支持开发者和希望使用此类功能的用户。 我们的大型语言模型在包括公开可用内容、许可内容和人类审查员生成的内容的广泛文本语料库上进行训练。我们不使用数据来销售我们的服务、广告投放或建立人员档案——我们使用数据让我们的模型对人们更有帮助。例如,ChatGPT 通过进一步在人们与之进行的对话上训练而改进。 虽然我们的一些训练数据包括公网上可获得的个人信息,但我们希望我们的模型了解世界,而不是私人个人信息。因此,我们努力从训练数据集中删除个人信息(如果可行),微调模型以拒绝对私人个人信息的请求,并响应个人删除其个人信息的请求。这些步骤最小化了我们的模型可能生成包含私人个人信息响应的可能性。 当今的大型语言模型根据它们之前看到的模式预测下一系列单词,包括用户提供的文本输入。在某些情况下,下一个最可能的单词可能不准确。 提高事实准确性是 OpenAI 和许多其他 AI 开发者的重点,我们正在取得进展。通过利用对被标记为不正确的 ChatGPT 输出的用户反馈作为主要数据来源,我们改进了 GPT-4 的事实准确性。GPT-4 生成事实内容的可能性比 GPT-3.5 高 40%。 当用户注册使用该工具时,我们努力尽可能透明地说明 ChatGPT 可能并不总是准确的。然而,我们认识到还有大量工作需要进行,以进一步降低幻觉的可能性,并教育公众了解这些 AI 工具的当前限制。 我们相信解决 AI 安全问题的实际做法是投入更多时间和资源来研究有效的缓解和对齐技术,并针对真实滥用情况测试它们。 重要的是,我们也相信改进 AI 安全和能力应该携手并进。迄今为止,我们最好的安全工作来自与最强大模型的合作,因为它们更善于遵循用户指令,更易于指导。 我们将对创建和部署更强大模型的行为越来越谨慎,并将继续增强安全预防措施,随着我们 AI 系统的演进。 虽然我们等待了 6 个多月来部署 GPT-4 以更好地理解其能力、优势和风险,但改进 AI 系统的安全性有时可能需要花费比这更长的时间。因此,政策制定者和 AI 提供商需要确保 AI 开发和部署在全球范围内得到有效管制,这样没有人会为了领先而走捷径。这是一个艰巨的挑战,需要技术和制度创新,但这是我们渴望为之贡献力量的挑战。 解决安全问题还需要广泛的辩论、实验和参与,包括关于 AI 系统行为界限的讨论。我们已经并将继续促进利益相关者之间的协作和开放对话,以创建安全的 AI 生态系统。

相似文章

OpenAI 安全实践

OpenAI Blog

OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。

OpenAI 对人工智能和国家安全的态度

OpenAI Blog

# OpenAI 对人工智能和国家安全的态度 来源:[https://openai.com/global-affairs/openais-approach-to-ai-and-national-security/](https://openai.com/global-affairs/openais-approach-to-ai-and-national-security/) OpenAI 今天,白宫发布了一份[关于人工智能的国家安全备忘录(NSM)⁠\(在新窗口中打开\)](https://www.whitehouse.gov/briefing-room/presidential-actions/2024/10/24/memorandum-on-advancing-the-united-states-leadership-in-artificial-intelligen)

为什么负责任的AI开发需要在安全问题上进行合作

OpenAI Blog

OpenAI发布了一份政策研究论文,确定了四项战略来改进行业在AI安全规范方面的合作:传达风险/收益、技术协作、提高透明度和激励标准。该分析论述了竞争压力如何可能导致对安全性的投资不足,并提出了协调激励措施以促进安全AI开发的机制。

OpenAI对儿童安全的承诺:采取安全设计原则

OpenAI Blog

OpenAI及包括亚马逊、谷歌、Meta、微软在内的主要科技公司已承诺在生成式AI的开发、部署和维护中实施“安全设计”原则以保护儿童。该倡议旨在通过模型开发、发布及持续平台安全方面的综合措施,降低儿童性虐待材料生成和传播的风险。

通过辩论实现AI安全

OpenAI Blog

OpenAI提出了一种新颖的AI安全方法,其中两个AI代理相互辩论,而人类评判员评估他们的论证,这使人类能够监督行为过于复杂而难以直接理解的AI系统。该方法利用辩论和对抗性推理来使先进AI与人类价值观和偏好保持一致。