前沿风险与应对准备
摘要
OpenAI 宣布了其应对准备挑战赛的获奖者,该赛事识别了与前沿 AI 系统相关的独特风险。前十名提交作品突出了包括金融系统操纵、信息泄露、医疗伤害、网络攻击和基于说服的威胁等问题,其中 70% 的参赛作品强调了 AI 增强恶意说服能力的潜力。
为了支持高能力 AI 系统的安全,我们正在开发我们的灾难性风险应对准备方案,包括建立应对准备团队和启动一项挑战赛。
查看缓存全文
缓存时间: 2026/04/20 14:43
# 前沿风险与防范准备
来源:https://openai.com/index/frontier-risk-and-preparedness/
作为《防范准备框架》(https://cdn.openai.com/openai-preparedness-framework-beta.pdf) 中"未知的未知数"工作流的一部分,防范准备团队为前沿 AI 风险预测挑战赛的十个最佳提交方案各提供了 25,000 美元的 API 额度。这些提交方案旨在识别前沿 AI 的独特但仍具有可信度的风险领域。我们收到了数百份用六种语言提交的方案,现在很高兴宣布下面列出的十位获胜者。这项练习帮助我们发现了新型风险,以便改进我们的主动测试和缓解策略。
我们通过评估技术严谨性、独特性、潜在造成的损害规模和清晰度来审查和评分每份提交方案。排名前十的提交方案中的一些如下所示,它们将深思熟虑的想法与概念验证相结合,突出了其利用 AI 相关工具的方法相比不使用 AI 相关工具的方法的优势1 (https://openai.com/index/frontier-risk-and-preparedness/#citation-bottom-1)。
- 在战略上重要的国家引发金融危机 - Claudia Biancotti
- 识别在公开场合讨论或发布的私人信息 - Chris Cundy
- 增加逆向工程机密或敏感信息的可能性 - George Davis
- 阻碍个人获取医疗护理的能力 - Mato Gudelj
- 识别勒索和诈骗目标 - Connor Heaton
- 通过访问无线电频率和中断飞行路径导致飞机��坬 - Joel Hypolite
- 运行提示注入攻击以引发危险响应 - Daniel Julh
- 操作和扩展网络攻击,破坏受害者的计算机并要求支付功能恢复费用 - Jun Kokatsu
- 干扰患者的医疗给药 - Zhenzhen Zhan
在评分挑战赛期间,我们注意到参赛者识别的关键威胁主题有相似之处。大约 70% 的参赛者强调了 OpenAI 模型增强恶意行为者说服能力的潜力。这些参赛者详细说明了包括在线激进化、极化和政治影响在内的威胁模型。我们目前正在进行关于 AI 对说服力影响的研究,期待与社区分享更多信息。感谢所有参与此挑战赛的人员 - 有许多优秀的提交方案。
相似文章
OpenAI 的前沿风险应对方案
OpenAI 公布了其应对前沿 AI 风险的方案细节,并宣布了在 2023 年 7 月自愿承诺的安全措施取得的进展,包括发布 DALL-E 3 系统卡和开发新的准备框架以管理先进 AI 系统可能带来的灾难性风险。
前沿AI监管:管理新兴的公共安全风险
OpenAI提议了一个针对可能造成公共安全风险的「前沿AI」模型的监管框架,倡导制定标准流程、注册/报告要求和合规机制,包括部署前风险评估和部署后监测。
我们更新的安全防护框架
OpenAI 发布了更新的安全防护框架,更加聚焦于高风险 AI 能力,引入了更清晰的风险优先级标准,以及针对自主复制和隐瞒等新兴威胁的研究类别,同时保留了针对生物、化学和网络安全能力等已有的追踪类别。
加强我们的前沿安全框架
DeepMind 发布了第三版前沿安全框架,扩展了风险范围以包括有害操纵和不对齐风险,并完善了风险评估流程和高级 AI 模型的治理协议。
前沿模型论坛更新
前沿模型论坛宣布创建一个新的 AI 安全基金,初期资金超过 1000 万美元,由主要 AI 公司(Anthropic、Google、Microsoft、OpenAI)和慈善合作伙伴提供支持,用于推进独立的 AI 安全研究。该基金将重点关注开发模型评估和红队测试技术,以评估前沿 AI 系统的危险能力。