加强我们的前沿安全框架

Google DeepMind Blog 新闻

摘要

DeepMind 发布了第三版前沿安全框架,扩展了风险范围以包括有害操纵和不对齐风险,并完善了风险评估流程和高级 AI 模型的治理协议。

我们正在加强前沿安全框架(FSF),以帮助识别和减轻先进 AI 模型带来的严重风险。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:35

# 加强我们的前沿安全框架 来源:https://deepmind.google/blog/strengthening-our-frontier-safety-framework/ 2025年9月22日,责任与安全 我们正在扩展风险域并完善风险评估流程。 **更新于2026年4月17日** AI突破正在改变我们的日常生活,从推进数学、生物学和天文学到实现个性化教育的潜力。随着我们构建越来越强大的AI模型,我们致力于负责任地开发我们的技术,并采取基于证据的方法来应对新兴风险。 今天,我们发布了第三版前沿安全框架(FSF) — 这是我们迄今为止最全面的方法,用于识别和缓解先进AI模型的严重风险。 此次更新建立在我们与行业、学术界和政府专家的持续合作基础之上。我们还吸取了实施之前版本的经验教训和前沿AI安全领域不断发展的最佳实践。 ## 框架的关键更新 ### 应对有害操纵风险 随着此次更新,我们引入了一个新的关键能力等级(CCL)*,专注于[有害操纵](https://deepmind.google/blog/protecting-people-from-harmful-manipulation/) — 具体来说,是指具有强大操纵能力的AI模型,可能被滥用于在特定高风险场景中系统性和实质性地改变信念和行为,通过与模型的交互,合理地导致严重规模的额外预期伤害。 这一补充建立在并具体化了我们所做的研究基础之上,该研究旨在识别和评估[驱动生成式AI操纵的机制](https://arxiv.org/abs/2404.15058)。今后,我们将继续在这一领域投入,以更好地理解和衡量与有害操纵相关的风险。 ### 调整我们对失配风险的方法 我们还扩展了框架,以应对失配AI模型可能干扰操作员指导、修改或关闭其操作能力的潜在未来情景。 虽然我们之前的框架版本采用了以工具理性CCLs为中心的探索性方法(即当AI模型开始进行欺骗性思考时的预警级别),但此次更新中我们现在为专注于可能将AI研究和开发加速到潜在不稳定水平的模型的机器学习研究和开发CCLs提供了进一步的协议。 除了这些能力产生的滥用风险外,还存在源于模型在这些能力水平上可能进行无向行动的失配风险,以及这类模型可能集成到AI开发和部署流程中的风险。 为了应对CCLs带来的风险,我们在达到相关CCLs时进行外部发布前的安全案例审查。这涉及进行详细分析,证明风险已降低到可管理的水平。对于先进的机器学习研究和开发CCLs,大规模内部部署也可能构成风险,因此我们现在正在扩展这种方法以包括此类部署。 ### 完善我们的风险评估流程 我们的框架旨在按风险严重程度比例应对风险。我们特别完善了CCL定义,以识别需要最严格治理和缓解策略的关键威胁。我们在达到特定CCL阈值之前以及作为标准模型开发方法的一部分继续应用安全和安全防护措施。 最后,在此次更新中,我们详细阐述了我们的风险评估流程。建立在我们核心预警评估的基础之上,我们描述了如何进行整体评估,包括系统性的风险识别、全面的模型能力分析和显式的风险可接受性判定。 ### FSF 3.1:引入追踪能力等级 自2026年4月17日起,我们在特定域中向[前沿安全框架](https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/strengthening-our-frontier-safety-framework/frontier-safety-framework_3-1.pdf)添加了追踪能力等级(TCLs),引入了一个新的能力等级,以帮助我们更早地发现和评估潜在的较低极端风险。 我们还详细说明了我们完整的风险管理流程,从初始识别到缓解。 ## 推进我们对前沿安全的承诺 前沿安全框架代表了我们的持续承诺,即采取科学、基于证据的方法来追踪并保持领先于AI风险的发展,随着能力向AGI推进。通过扩展我们的风险域并加强我们的风险评估流程,我们旨在确保变革性AI造福人类,同时最大限度地减少潜在伤害。 我们的框架将继续根据新研究、利益相关者的意见和实施经验而演进。我们保持致力于与行业、学术界和政府进行跨领域合作。 实现有益AGI的道路不仅需要技术突破,还需要强有力的框架来沿途缓解风险。我们希望我们更新的前沿安全框架能够为这一集体努力做出有意义的贡献。

相似文章

更新前沿安全框架

Google DeepMind Blog

DeepMind 发布了更新的前沿安全框架(v2.0),为前沿 AI 模型配备了更强的安全协议,包括新的关键能力等级(CCL)安全建议和加强的欺骗性对齐风险防护方法。该框架旨在防止模型权重的未授权泄露,并管理 AI 系统变得更加强大时带来的风险。

前沿模型论坛更新

OpenAI Blog

前沿模型论坛宣布创建一个新的 AI 安全基金,初期资金超过 1000 万美元,由主要 AI 公司(Anthropic、Google、Microsoft、OpenAI)和慈善合作伙伴提供支持,用于推进独立的 AI 安全研究。该基金将重点关注开发模型评估和红队测试技术,以评估前沿 AI 系统的危险能力。

OpenAI 的前沿风险应对方案

OpenAI Blog

OpenAI 公布了其应对前沿 AI 风险的方案细节,并宣布了在 2023 年 7 月自愿承诺的安全措施取得的进展,包括发布 DALL-E 3 系统卡和开发新的准备框架以管理先进 AI 系统可能带来的灾难性风险。

前沿AI监管:管理新兴的公共安全风险

OpenAI Blog

OpenAI提议了一个针对可能造成公共安全风险的「前沿AI」模型的监管框架,倡导制定标准流程、注册/报告要求和合规机制,包括部署前风险评估和部署后监测。

前沿模型论坛

OpenAI Blog

OpenAI、Google、Microsoft 和 Anthropic 启动前沿模型论坛,旨在协调行业、政府和民间社会之间的AI安全标准、研究和信息共享。该倡议重点关注识别最佳实践、推进AI安全研究以及建立安全信息共享机制。