用人和AI推进红队测试

OpenAI Blog 2024/11/21 10:30 新闻

red-teaming ai-safety model-testing openai methodology adversarial-testing

摘要

OpenAI 发布了一份白皮书，详细说明了他们对AI模型进行外部红队测试的方法，包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。

用人和AI推进红队测试

查看缓存全文

缓存时间: 2026/04/20 14:47

# 通过人工智能和人类推进红队测试来源: https://openai.com/index/advancing-red-teaming-with-people-and-ai/ 我们外部红队测试活动的关键方面包括定义测试范围、选择红队成员、决定他们可以访问的模型，以及确定最终报告的格式。在一份新的白皮书*《OpenAI 对 AI 模型和系统外部红队测试的方法》*(https://cdn.openai.com/papers/openais-approach-to-external-red-teaming.pdf)中，我们详细说明了我们设计有效红队测试活动的方法： **1. 根据目标和关键测试领域选择红队小组的组成** 为各种用例设计的 AI 系统需要在多个领域进行彻底测试，涉及具有不同视角的人员（例如，在自然科学和网络安全等领域拥有专业知识、具备区域政治知识或掌握多种语言的人）。在红队测试之前进行威胁建模，以优先确定测试领域，考虑预期的模型能力、以前观察到的模型问题以及潜在的应用等因素。内部团队根据他们对模型能力的了解设定初始测试优先级，随后引入外部红队人员来精细化或扩展重点。这些优先级随后指导红队的组建，确保他们满足模型的具体测试需求。 **2. 决定红队人员可以访问的模型或系统版本** 红队人员可以访问的模型版本会影响红队测试结果，应该与活动目标保持一致。例如，在开发早期测试一个没有安全防护措施的模型可以帮助评估与能力增强相关的新风险，但不一定能够测试计划中的防护措施的缺口。理想的方法取决于模型的具体需求，红队人员可能在整个测试期间测试模型和系统的多个版本。 **3. 为红队人员创建和提供接口、说明和文档指导** 与红队测试活动中的外部测试人员进行有效互动需要清晰的说明、合适的测试接口和可操作的文档。说明可能包括模型的描述以及现有或计划的防护措施、如何使用测试接口、优先测试领域以及记录结果的指导。不同的接口或测试人员与 AI 模型交互的方式可能包括 API 或消费者产品接口，如 ChatGPT。用于红队测试的接口通过启用快速程序化测试、收集关于特定提示或响应的反馈或模拟潜在的用户交互来促进测试。通过合适的接口和文档说明组合，从红队测试中收集的结构化反馈可以随后用于风险评估和自动化评估的输入。 **4. 综合数据并创建评估** 红队测试活动之后的关键步骤是确定示例是否属于现有政策、是否违反这些政策，或者是否需要新的政策或行为修改。某些活动针对已知的政策违规，而其他活动则探索没有明确政策覆盖的领域。一旦红队测试活动的数据被评估为符合质量要求，该数据就可以用于对未来模型更新进行可重复的自动化评估。最近，我们使用这种方法为 OpenAI o1 系列模型(https://openai.com/index/openai-o1-system-card/)的公开使用做准备。我们设计了一个外部红队测试活动，测试该模型对越狱的抵抗力、对真实攻击计划提示的安全处理、在自然科学中的安全应用，以及更广泛的话题，如 AI 研究和开发能力。

用人和AI推进红队测试

相似文章

OpenAI Red Teaming Network

推进AI治理发展

OpenAI 安全实践

为AI的恶意使用做准备

@OpenAI: 我们也有三家第三方AI安全组织对我们的分析提供了反馈：@redwood_ai, @apolloaievals, @M…

提交意见反馈