推进AI治理发展

OpenAI Blog 2023/07/21 07:00 新闻

ai-governance red-teaming safety transparency policy industry-standards

摘要

OpenAI发布AI治理建议,承诺企业进行内部和外部红队测试以应对安全风险,共享有关新兴能力的信息,以及建立检测AI生成音频和视觉内容的机制。

OpenAI和其他领先实验室通过自愿承诺来强化AI安全性、安全保障和可信赖性。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:54

# 推进AI治理来源：https://openai.com/index/moving-ai-governance-forward/ **1) 承诺对模型或系统进行内部和外部红队测试，涵盖滥用、社会风险和国家安全问题（如生物、网络和其他安全领域）** 做出此承诺的公司认识到，稳健的红队测试对于构建成功产品、确保公众对AI的信心以及防范重大国家安全威胁至关重要。模型安全和能力评估（包括红队测试）是开放的科学研究领域，仍有许多工作有待完成。公司承诺推进这一研究领域，并为所有主要公开发布的新模型建立多方面、专业化且详细的红队测试制度，包括利用独立的领域专家。在设计该制度时，他们将重点关注以下方面： - 生物、化学和放射性风险，包括系统如何降低武器开发、设计、获取或使用的门槛 - 网络能力，包括系统如何帮助发现、利用漏洞或进行操作，同时考虑到此类能力也可能具有有用的防御应用，可能适合包含在系统中 - 系统交互和工具使用的影响，包括控制物理系统的能力 - 模型自我复制的能力 - 社会风险，如偏见和歧视为支持这些工作，做出此承诺的公司承诺推进AI安全研究，包括AI系统决策过程的可解释性研究，以及增强AI系统抵御滥用的鲁棒性。同样，公司承诺在其透明度报告中公开披露其红队测试和安全程序。 **2) 推动公司和政府之间就信任和安全风险、危险或新兴能力以及规避保护措施的尝试进行信息共享** 做出此承诺的公司认识到信息共享、通用标准和最佳实践对于红队测试和推进AI信任与安全的重要性。他们承诺建立或加入一个论坛或机制，通过该机制可以开发、推进和采纳前沿AI安全的共同标准和最佳实践，如NIST AI风险管理框架或未来与红队测试、安全和社会风险相关的标准。该论坛或机制可以促进关于前沿能力进展和新兴风险与威胁（如规避保护措施的尝试）的信息共享，并可以促进在关键关注领域建立技术工作组。在这项工作中，公司将与政府（包括美国政府）、民间社会和学术界进行密切合作。 **5) 开发和部署机制，使用户能够了解音频或视觉内容是否由AI生成，包括对AI生成的音频或视觉内容采用强大的来源追溯或水印标记或两者兼用** 做出此承诺的公司认识到，人们能够了解音频或视觉内容何时由AI生成是重要的。为实现这一目标，他们同意为在水印系统开发后推出的任何公开可用系统创建的音频或视觉内容开发强大的机制，包括来源追溯和/或水印系统。他们还将开发工具或API来确定特定内容是否由其系统创建。容易与现实区分或设计为明显可识别为由公司AI系统生成的视听内容（如AI助手的默认语音）不在本承诺范围内。水印或来源数据应包括创建该内容的服务或模型的标识符，但无需包含任何用户身份信息。更广泛地说，做出此承诺的公司承诺与业界同行和标准制定机构适当合作，开发技术框架以帮助用户区分用户生成的音频或视觉内容与AI生成的音频或视觉内容。 **6) 公开报告模型或系统的能力、局限性以及适当和不适当使用的领域，包括讨论社会风险，如对公平性和偏见的影响** 做出此承诺的公司认识到用户应了解其使用或交互的AI系统的已知能力和局限性。他们承诺为范围内所有重要的新模型公开发布发布报告。这些报告应包括进行的安全评估（包括危险能力等领域，但应负责任地披露）、对使用域有影响的性能显著局限性、对公平性和偏见等社会风险影响的讨论，以及为评估模型部署适应性而进行的对抗性测试结果。 **7) 优先进行关于AI系统所构成的社会风险的研究，包括避免有害偏见和歧视，以及保护隐私** 做出此承诺的公司认识到避免有害偏见被AI系统传播和防止AI系统实施歧视的重要性。公司普遍承诺赋能信任和安全团队、推进AI安全研究、推进隐私保护、保护儿童，以及积极主动地管理AI风险，使其益处能够得以实现。 **8) 开发和部署前沿AI系统以帮助解决社会最重大的挑战** 做出此承诺的公司同意支持前沿AI系统的研究和开发，这些系统可以帮助应对社会最重大的挑战，如气候变化缓解和适应、早期癌症检测和预防以及应对网络威胁。公司还承诺支持促进学生和劳动力教育培训的举措，使其能够从AI的益处中获益，并帮助公民理解该技术的性质、能力、局限性和影响。

推进AI治理发展

相似文章

为什么负责任的AI开发需要在安全问题上进行合作

智能体AI系统的治理实践

前沿AI监管：管理新兴的公共安全风险

OpenAI公共政策议程

AI进展和建议

提交意见反馈