OpenAI Red Teaming Network
摘要
OpenAI 推出红队测试网络,从多个领域的专家和不同视角众包对 AI 模型的对抗性测试。该计划接受持续申请,提供灵活的时间承诺(每年仅需 5 小时),提供报酬,并强调安全专业知识和来自代表性不足群体的背景。
我们宣布为 OpenAI 红队测试网络开放征募,邀请有志于改进 OpenAI 模型安全性的领域专家加入我们的工作。
查看缓存全文
缓存时间:
2026/04/20 14:51
# OpenAI 红队网络
来源:https://openai.com/index/red-teaming-network/
**问:加入该网络需要做什么?**
**答:** 作为网络的一部分,你可能会被联系参与测试新模型,或在已部署的模型上测试特定领域的功能。作为网络一部分进行的工作受保密协议(NDA)约束,但我们历来在系统卡和博客文章中发布了许多红队测试成果。你将因红队项目所花费的时间获得报酬。
**问:作为网络一部分的预期时间承诺是多少?**
**答:** 你决定投入的时间可以根据你的日程灵活调整。请注意,不是网络中的每个人都会被联系参与每个机会,OpenAI 将根据特定红队项目的合适度进行选择,并在后续红队活动中强调不同的视角。即使一年只需投入 5 小时,对我们来说仍然很有价值,所以如果你感兴趣但时间有限,请不要犹豫申请。
**问:申请者何时会被通知接受情况?**
**答:** OpenAI 将逐步选择网络成员,你可以申请至 2023 年 12 月 1 日。在此申请期后,我们将重新评估是否在未来开放新的申请机会。
**问:作为网络的一部分,是否意味着我会被要求为每个新模型进行红队测试?**
**答:** 不会。OpenAI 将根据特定红队项目的合适度进行选择,你不应该期望测试每个新模型。
**问:你们在网络成员身上寻找哪些标准?**
**答:** 我们寻找的一些标准包括:
- 在与红队测试相关的特定领域拥有已证明的专业知识或经验
- 热衷于改进 AI 安全
- 没有利益冲突
- 来自不同背景和传统上代表人数不足的群体
- 具有多样化的地理代表性
- 流利掌握多种语言
- 技术能力(非必需)
**问:还有其他合作安全机会吗?**
**答:** 除了加入网络外,还有其他合作机会可以为 AI 安全做出贡献。例如,一个选项是在 AI 系统上创建或进行安全评估,并分析结果。
OpenAI 的开源 Evals (https://github.com/openai/evals/tree/main) 仓库(作为 GPT-4 发布 (https://openai.com/index/gpt-4-research/) 的一部分发布)提供了用户友好的模板和示例方法来启动这一过程。
评估的范围可以从简单的问答测试到更复杂的模拟。作为具体示例,以下是 OpenAI 开发的示例评估,用于从多个角度评估 AI 行为:
*说服力*
- MakeMeSay (https://github.com/openai/evals/tree/main/evals/elsuite/make_me_say/readme.md):AI 系统能多好地欺骗另一个 AI 系统说出一个密语?
- MakeMePay (https://github.com/openai/evals/tree/main/evals/elsuite/make_me_pay/readme.md):AI 系统能多好地说服另一个 AI 系统捐献金钱?
- Ballot Proposal (https://github.com/openai/evals/tree/main/evals/elsuite/ballots/readme.md):AI 系统能多好地影响另一个 AI 系统对政治提议的支持?
*隐写术(隐密信息)*
- Steganography (https://github.com/openai/evals/tree/main/evals/elsuite/steganography/readme.md):AI 系统能多好地传递秘密信息而不被另一个 AI 系统发现?
- Text Compression (https://github.com/openai/evals/tree/main/evals/elsuite/text_compression/readme.md):AI 系统能多好地压缩和解压消息以隐藏秘密信息?
- Schelling Point (https://github.com/openai/evals/blob/main/evals/elsuite/schelling_point/README.md):AI 系统能多好地与另一个 AI 系统协调,且不进行直接沟通?
我们鼓励在评估 AI 系统时发挥创意和进行实验。完成后,我们欢迎你将评估贡献给开源 Evals (https://github.com/openai/evals/tree/main) 仓库供更广泛的 AI 社区使用。
你还可以申请我们的研究员访问计划 (https://openai.com/form/researcher-access-program/),该计划为使用我们产品的研究员提供额度支持,以研究与 AI 负责任部署以及风险缓解相关的领域。
相似文章
OpenAI Blog
OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。
OpenAI Blog
OpenAI 发布了对参与 o1 模型评估和安全测试的外部测试者和红队人员的致谢。该文档列出了参与红队测试和防准备协作工作的个人和组织。
OpenAI Blog
OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。
OpenAI Blog
# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能
OpenAI Blog
# OpenAI 和 Reddit 合作
来源: [https://openai.com/index/openai-and-reddit-partnership/](https://openai.com/index/openai-and-reddit-partnership/)
*编者注:本文最初由* [*Reddit*\(在新窗口打开\)](https://www.redditinc.com/blog/reddit-and-oai-partner) *发布。*
保持互联网的开放性至关重要,开放的一部分意味着 Reddit 内容需要对那些促进人类学习和研究如何建立社区、归属感的人士开放,