用人和AI推进红队测试
摘要
OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。
用人和AI推进红队测试
查看缓存全文
缓存时间: 2026/04/20 14:47
# 通过人工智能和人类推进红队测试
来源: https://openai.com/index/advancing-red-teaming-with-people-and-ai/
我们外部红队测试活动的关键方面包括定义测试范围、选择红队成员、决定他们可以访问的模型,以及确定最终报告的格式。
在一份新的白皮书*《OpenAI 对 AI 模型和系统外部红队测试的方法》*(https://cdn.openai.com/papers/openais-approach-to-external-red-teaming.pdf)中,我们详细说明了我们设计有效红队测试活动的方法:
**1. 根据目标和关键测试领域选择红队小组的组成**
为各种用例设计的 AI 系统需要在多个领域进行彻底测试,涉及具有不同视角的人员(例如,在自然科学和网络安全等领域拥有专业知识、具备区域政治知识或掌握多种语言的人)。在红队测试之前进行威胁建模,以优先确定测试领域,考虑预期的模型能力、以前观察到的模型问题以及潜在的应用等因素。内部团队根据他们对模型能力的了解设定初始测试优先级,随后引入外部红队人员来精细化或扩展重点。这些优先级随后指导红队的组建,确保他们满足模型的具体测试需求。
**2. 决定红队人员可以访问的模型或系统版本**
红队人员可以访问的模型版本会影响红队测试结果,应该与活动目标保持一致。例如,在开发早期测试一个没有安全防护措施的模型可以帮助评估与能力增强相关的新风险,但不一定能够测试计划中的防护措施的缺口。理想的方法取决于模型的具体需求,红队人员可能在整个测试期间测试模型和系统的多个版本。
**3. 为红队人员创建和提供接口、说明和文档指导**
与红队测试活动中的外部测试人员进行有效互动需要清晰的说明、合适的测试接口和可操作的文档。说明可能包括模型的描述以及现有或计划的防护措施、如何使用测试接口、优先测试领域以及记录结果的指导。不同的接口或测试人员与 AI 模型交互的方式可能包括 API 或消费者产品接口,如 ChatGPT。用于红队测试的接口通过启用快速程序化测试、收集关于特定提示或响应的反馈或模拟潜在的用户交互来促进测试。通过合适的接口和文档说明组合,从红队测试中收集的结构化反馈可以随后用于风险评估和自动化评估的输入。
**4. 综合数据并创建评估**
红队测试活动之后的关键步骤是确定示例是否属于现有政策、是否违反这些政策,或者是否需要新的政策或行为修改。某些活动针对已知的政策违规,而其他活动则探索没有明确政策覆盖的领域。一旦红队测试活动的数据被评估为符合质量要求,该数据就可以用于对未来模型更新进行可重复的自动化评估。
最近,我们使用这种方法为 OpenAI o1 系列模型(https://openai.com/index/openai-o1-system-card/)的公开使用做准备。我们设计了一个外部红队测试活动,测试该模型对越狱的抵抗力、对真实攻击计划提示的安全处理、在自然科学中的安全应用,以及更广泛的话题,如 AI 研究和开发能力。
相似文章
OpenAI Red Teaming Network
OpenAI 推出红队测试网络,从多个领域的专家和不同视角众包对 AI 模型的对抗性测试。该计划接受持续申请,提供灵活的时间承诺(每年仅需 5 小时),提供报酬,并强调安全专业知识和来自代表性不足群体的背景。
推进AI治理发展
OpenAI发布AI治理建议,承诺企业进行内部和外部红队测试以应对安全风险,共享有关新兴能力的信息,以及建立检测AI生成音频和视觉内容的机制。
OpenAI 安全实践
OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。
为AI的恶意使用做准备
OpenAI与领先研究机构合作共同撰写了一份综合论文,预测AI可能被恶意使用的方式并提出缓解策略。该研究强调承认AI的双重用途特性、借鉴网络安全实践,以及扩大围绕AI安全风险的利益相关者讨论。
@OpenAI: 我们也有三家第三方AI安全组织对我们的分析提供了反馈:@redwood_ai, @apolloaievals, @M…
OpenAI在强化学习训练中意外允许评分人员看到思考链;Redwood Research审阅其分析后发现,证据在很大程度上消除了对危险影响的担忧,但仍存在轻微风险。