前沿风险与应对准备

OpenAI Blog 2023/10/26 07:00 新闻

摘要

OpenAI 宣布了其应对准备挑战赛的获奖者，该赛事识别了与前沿 AI 系统相关的独特风险。前十名提交作品突出了包括金融系统操纵、信息泄露、医疗伤害、网络攻击和基于说服的威胁等问题，其中 70% 的参赛作品强调了 AI 增强恶意说服能力的潜力。

为了支持高能力 AI 系统的安全，我们正在开发我们的灾难性风险应对准备方案，包括建立应对准备团队和启动一项挑战赛。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:43

# 前沿风险与防范准备来源：https://openai.com/index/frontier-risk-and-preparedness/ 作为《防范准备框架》(https://cdn.openai.com/openai-preparedness-framework-beta.pdf) 中"未知的未知数"工作流的一部分，防范准备团队为前沿 AI 风险预测挑战赛的十个最佳提交方案各提供了 25,000 美元的 API 额度。这些提交方案旨在识别前沿 AI 的独特但仍具有可信度的风险领域。我们收到了数百份用六种语言提交的方案，现在很高兴宣布下面列出的十位获胜者。这项练习帮助我们发现了新型风险，以便改进我们的主动测试和缓解策略。我们通过评估技术严谨性、独特性、潜在造成的损害规模和清晰度来审查和评分每份提交方案。排名前十的提交方案中的一些如下所示，它们将深思熟虑的想法与概念验证相结合，突出了其利用 AI 相关工具的方法相比不使用 AI 相关工具的方法的优势1 (https://openai.com/index/frontier-risk-and-preparedness/#citation-bottom-1)。 - 在战略上重要的国家引发金融危机 - Claudia Biancotti - 识别在公开场合讨论或发布的私人信息 - Chris Cundy - 增加逆向工程机密或敏感信息的可能性 - George Davis - 阻碍个人获取医疗护理的能力 - Mato Gudelj - 识别勒索和诈骗目标 - Connor Heaton - 通过访问无线电频率和中断飞行路径导致飞机��坬 - Joel Hypolite - 运行提示注入攻击以引发危险响应 - Daniel Julh - 操作和扩展网络攻击，破坏受害者的计算机并要求支付功能恢复费用 - Jun Kokatsu - 干扰患者的医疗给药 - Zhenzhen Zhan 在评分挑战赛期间，我们注意到参赛者识别的关键威胁主题有相似之处。大约 70% 的参赛者强调了 OpenAI 模型增强恶意行为者说服能力的潜力。这些参赛者详细说明了包括在线激进化、极化和政治影响在内的威胁模型。我们目前正在进行关于 AI 对说服力影响的研究，期待与社区分享更多信息。感谢所有参与此挑战赛的人员 - 有许多优秀的提交方案。

前沿风险与应对准备

相似文章

OpenAI 的前沿风险应对方案

前沿AI监管：管理新兴的公共安全风险

我们更新的安全防护框架

加强我们的前沿安全框架

前沿模型论坛更新

提交意见反馈