对NIST人工智能行政令的回应

OpenAI Blog 2024/02/02 00:00 新闻

ai-policy ai-safety regulation openai nist red-teaming ai-governance

摘要

# 对NIST人工智能行政令的回应来源: [https://openai.com/global-affairs/response-to-nist-executive-order-on-ai/](https://openai.com/global-affairs/response-to-nist-executive-order-on-ai/) OpenAI美国国家标准与技术研究院（NIST）就《人工智能行政令》第4.1、4.5和11条款所涉任务相关信息的征询。OpenAI于2015年作为非营利组织创立，旨在确保通用人工智能——

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:54

# 对NIST人工智能行政令的回应来源：https://openai.com/global-affairs/response-to-nist-executive-order-on-ai/ OpenAI美国国家标准与技术研究所(NIST)根据《关于人工智能的行政令》第4.1、4.5和11条款提出的信息请求。 OpenAI成立于2015年，初衷是确保通用人工智能——简言之，智能水平至少与人类相当的AI——造福全人类。我们从事研究、开发和发布尖端AI技术，以及AI安全、对齐和治理的工具和最佳实践。我们欢迎这个机会为NIST正在进行的关键AI工作提供信息。在此，我们重点关注RFI中提出的三个主题：(1)评估和审计AI能力，(2)进行红队测试以实现安全、可靠和可信系统的部署，(3)合成媒体和出处。我们为NIST关注"为评估AI可能造成危害的能力创建指导和基准"而鼓掌。OpenAI已承诺采用《准备框架》(https://cdn.openai.com/openai-preparedness-framework-beta.pdf)，这是一种评估、跟踪和缓解当前和未来AI模型灾难性危险风险的全面方法。准备框架目前跟踪四个初始风险领域：网络安全；化学、生物、核和放射性威胁(CBRN)；劝说；以及模型自主性。该框架还承诺我们将持续警惕尚未被识别的"未知未知"风险。作为这项工作的一部分，OpenAI最近分享了(https://openai.com/research/building-an-early-warning-system-for-llm-aided-biological-threat-creation)一项针对CBRN的大规模评估：评估GPT-4在多大程度上能增加恶意行为者获取关于生物威胁创建危险信息的机会，相比现有资源(即互联网)的基线。在迄今最大规模的涉及生物学专家和学生的评估中，我们发现GPT-4对生物威胁创建信息的提升幅度最多为温和程度。虽然提升幅度不足以得出结论，但我们希望这一发现能为继续的研究和社区讨论奠定基础，我们期望这将由NIST和新成立的AI安全研究所推动。这项工作增强了我们对几项关键原则的信心，这些原则用于评估AI系统的风险： - **AI系统对风险的贡献应相对于适当的基线来衡量。**许多可能被当前和未来AI系统增加的风险(例如网络安全或生物安全风险)即使没有AI也存在于某种程度上。例如，互联网搜索已经能提供大量生物安全相关信息的访问。在评估AI系统对风险的贡献时，重要的最佳实践是测试AI是否增加了现有资源之外的风险。在我们最近的生物风险研究中，我们通过随机将一半的参与者分配到对照组(仅允许使用非AI知识来源，包括在线数据库、文章和互联网搜索引擎，以及他们的任何先验知识)，将另一半分配到治疗组(可以完全访问这些资源和GPT-4模型)来实现这一点。 - **与领域专家合作对理解风险至关重要。**任何一个实体都很难招聘在所有与AI安全相关的广泛多样化主题上都是世界一流的专家。为了获得金标准专业知识，与拥有危险能力评估相关学科领域专家的第三方合作是有用的。此外，让领域专家参与研究的评分有助于确保评估是客观进行的。例如，在开发和实施生物风险评估时，我们与第三方生物安全专家密切合作，进行研究任务设计、参与者安全培训管理和完成任务评分。扩大和多样化这个生态系统符合AI安全的利益。 - **全面的评估也需要与AI专家合作，以有效地阐明模型能力的全部范围。**要理解AI模型风险的全部范围，在可能的情况下有必要在评估中阐明模型的全部能力。这需要对底层AI系统及其如何被有效利用的深刻理解。我们建议评估与AI专家紧密合作设计。在我们的生物风险研究中，这包括为人类受试者提供培训，使他们能够更好地利用语言模型能力引导的最佳实践，以及更好地阐明和探测模型能力的定制技术方法。 - **我们需要更多关于如何解释风险评估结果的研究。**例如，在评估AI模型增加生物风险信息访问的情况下，目前还不清楚信息访问增加的什么水平会转化为生物风险的显著增加。随着新技术的出现，这些新技术可以将在线信息转化为物理生物威胁，AI系统对生物风险的影响可能会改变。当我们继续实施准备框架时，我们渴望与NIST和AI安全研究所合作，加强对风险和风险指标的理解。 - **金标准人类受试者评估成本高昂。**进行语言模型的人类评估需要可观的预算来补偿参与者、开发软件和安全。在我们的生物风险研究中，我们探索了各种方式来降低这些成本，但大多数这些费用是由以下原因造成的：(1)不可协商的安全考虑，或(2)所需的参与者数量和每个参与者需要花费的时间以进行彻底检查。这在设计标准时应该被考虑。有关最近生物风险研究的更多信息可在我们的博客文章中找到：为LLM辅助的生物威胁创建建立早期预警系统(https://openai.com/research/building-an-early-warning-system-for-llm-aided-biological-threat-creation)。 OpenAI将红队定义为"用于探测AI系统和产品以识别有害能力、输出或基础设施威胁的结构化过程"。A(https://openai.com/global-affairs/response-to-nist-executive-order-on-ai/#citation-bottom-A)在红队这个总称下出现了各种可能的方法，包括内部红队(由实验室或公司的内部专门团队进行)、外部红队(由外部利益相关者与实验室或公司合作进行)或自动红队(使用AI模型生成自动攻击并分类输出)。在本文的背景下，我们主要指的是涉及OpenAI与外部领域专家合作来评估AI模型或系统的能力和风险的外部红队工作。 OpenAI的红队方法不是孤立地考虑对抗性攻击或模型输出。相反，这是一种与领域专家合作以上下文化、整体的方式阐明风险的方法。B(https://openai.com/global-affairs/response-to-nist-executive-order-on-ai/#citation-bottom-B)除了恶意使用和规避安全缓解措施的方法外，红队还考虑其他风险：良性或预期输入导致有害或有风险的输出、可能改变风险格局的新奇能力改进，以及系统本身外部的因素如何可能与模型输出相互作用以造成风险或伤害。这些领域的评估通常受益于让人类参与其中，以生成潜在示例和验证所得输出是否符合特定红队人员的专业知识。 AI红队有助于理解与以下新模型和系统相关的潜在风险： - 需要与先前AI系统或技术不同的交互形式，且不被程序化评估充分覆盖(例如，DALL·E、GPTs中的绘画)。 - 拥有可能引入尚未评估过的新颖风险的显著改进的能力(例如，科学领域、劝说或推理)。 - 需要特定的上下文或领域知识来进行测试和验证(例如，区域特定的政治内容、文化偏见、科学或专业领域如法律和医学)。 - 需要理解用户流程或特定用例，包括可能在系统之外的因素(例如，为低视力个体测试GPT-4(V))。 OpenAI将红队视为评估模型级别和系统级别风险的工具。系统功能可能包括：分类器、提示过滤器/阻止列表、用户界面级别的干预、监控和评估实践以及其他政策执行机制。即使没有涉及新模型，我们有时也会对新产品进行红队测试。例如，虽然GPTs(https://openai.com/blog/introducing-gpts)没有引入新的底层模型，但它们确实引入了用户与模型交互方式的新系统。 OpenAI将我们的红队工作视为补充性的，应该由基于我们技术构建的开发者进行进一步的领域特定红队工作。例如，虽然我们在特定时间点和特定条件下对我们的模型和系统进行红队测试，但使用我们API构建的开发者应该考虑这些学习，并根据他们期望运营的系统和背景条件进行额外的红队测试。这是OpenAI在系统卡(和其他形式的公开文档)中发布红队工作的关键发现的原因之一，以便其他人学习和借鉴。我们已在系统卡中记录了前沿模型发布中的几项红队工作： OpenAI已为专家红队人员提供了预训练模型的访问权限，这些模型具有不同程度的微调和训练后处理，以及不同成熟度的安全缓解措施。这样做的目标如下： - 红队见解可能为训练后级别缓解措施、系统级别缓解措施、政策和评估的开发提供信息。 - 红队见解可能有助于为有关发布某些功能的决策、如何迭代部署发布以及安全缓解措施的有效性提供信息。 - 红队结果可能与公开发布材料(如系统卡或其他格式)一起共享，以向潜在用户和其他利益相关者通知已缓解的风险、残留风险和可能的未来风险。我们在开发过程中尽早与红队人员合作，以便红队见解可以直接反馈到安全工作和决策中。了解模型的基本能力也很重要，这些能力在添加任何安全缓解措施之前是这样的，这样模型开发者可以对模型的基本级别风险做出知情决策，也为对与日益强大的系统相关的风险格局的社会理解做出贡献。一旦安全缓解措施已经到位，红队工作可能会关注额外轮次的红队工作，以识别不被安全缓解措施解决的差距和残留风险，以及评估缓解措施的健壮性。最终，虽然在模型开发过程的更上游有重要的安全属性需要进一步考虑，但红队旨在模拟尽可能接近模型开发者向公众发布的体验。红队本身不是充分的风险衡量练习。就其本身而言，红队不会量化模型产生有害内容的概率或倾向，或与AI系统使用相关的风险。红队也没有提供足够的信息来量化已识别风险或伤害的严重程度。虽然OpenAI的大多数专家红队工作发生在主要模型或产品部署之前，但模型和系统在生产中经常发展，因此在上下文化红队发现时考虑这一点很重要。类似地，为特定用例在模型上构建的开发者可能会做出设计决策，改变模型或系统的安全性档案，如果它不是模型或系统固有的(或不可变的)。红队为进一步测试和评估的类型奠定基础，并为安全缓解措施需要稳健应对的攻击向量或问题提供一些指导。检查问题的多个示例和排列可以帮助建立对如何衡量特定风险领域的信心。专家红队工作的设计目标是覆盖风险领域的广度而不是深度，因此，就其本身而言，不一定会创建足以衡量特定风险的评估。相反，红队可以生成可能被视为更彻底评估的"种子"的数据集。从那里，结果可以用来生成所发现的特定问题领域的更多示例，一个"黄金集"的标记示例(通常由领域专家提供)可以用于评估未来模型在已识别问题领域中的表现。将被用于许多预期和未预期用例以及全球各种背景的通用AI系统需要涵盖广泛的主题领域，由代表广泛观点和世界观的人员组成。 OpenAI相信招聘多种专家来红队我们的模型。去年，我们发出了加入红队网络(https://openai.com/index/red-teaming-network/)的申请人呼吁。选择标准包括： - 在与红队相关的特定领域中展示的专业知识或经验 - 对改进AI安全充满热情 - 没有任何利益冲突 - 多样化的背景和传统上代表性不足的群体 - 地理位置的多样化代表 - 流利掌握一种以上语言 - 技术能力(有益但不是必需的) 领域优先级可以由以下信息告知：AI系统或模型的预期用途，特别是在具有更高歧义或可能风险的背景下，模型开发者可能期望增加能力的模型的早期评估、已知的先前内容政策问题领域和相关的社会政治背景(例如，2024年是全球许多地方的主要选举年)。需要注意的是，每个模型或系统可能需要不同的专业知识集，基于模型或系统的不断发展的能力和新颖用例可能会考虑新的领域。因此，红队的最优组成会随时间而发展。 - **水印：**在这种方法下，音视频生成的媒体本身包含其起源的信号——一个对观众或听众不明显的微妙图案，但可以被软件检测到。这可能是只能在秘密密钥的帮助下才能检测到的信号，或者，检测水印的软件可能是公开可用的。因此，如果OpenAI要向我们的输出添加水印，需要跨AI价值链的协作，以便其他参与者(如分发内容的社交媒体平台)能够使水印可被应用

相似文章

OpenAI 对人工智能和国家安全的态度

OpenAI Blog

# OpenAI 对人工智能和国家安全的态度来源：[https://openai.com/global-affairs/openais-approach-to-ai-and-national-security/](https://openai.com/global-affairs/openais-approach-to-ai-and-national-security/) OpenAI 今天，白宫发布了一份[关于人工智能的国家安全备忘录（NSM）⁠\(在新窗口中打开\)](https://www.whitehouse.gov/briefing-room/presidential-actions/2024/10/24/memorandum-on-advancing-the-united-states-leadership-in-artificial-intelligen)

对NIST人工智能行政令的回应

相似文章

OpenAI 对人工智能和国家安全的态度

OpenAI 向能源部提交的关于 AI 基础设施的回应

智能时代的网络安全

关于NTIA人工智能问责政策的评论

OpenAI 对美国 AI 行动计划的建议

提交意见反馈