评估先进AI的潜在网络安全威胁

Google DeepMind Blog 论文

摘要

DeepMind发布了一个综合框架,用于评估先进AI模型的进攻性网络安全能力,分析了遍布20个国家的12000多次真实AI驱动的网络攻击,并创建了涵盖整个攻击链的50个挑战基准,帮助防御者优先配置安全资源。

我们的框架使网络安全专家能够确定哪些防御措施是必要的,以及如何对其进行优先排序
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:36

# 评估先进人工智能的潜在网络安全威胁 来源:https://deepmind.google/blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/ 2025年4月2日 责任与安全 人工智能(AI)长期以来一直是网络安全的基石。从恶意软件检测到网络流量分析,预测性机器学习模型和其他狭义AI应用已在网络安全领域使用了数十年。随着我们日益接近通用人工智能(AGI),AI自动化防御和修复漏洞的潜力变得更加强大。 但要充分利用这些优势,我们也必须理解和缓解日益先进的AI被[滥用](https://cloud.google.com/blog/topics/threat-intelligence/adversarial-misuse-generative-ai)来实施或增强网络攻击的风险。我们新的[框架用于评估AI的新兴进攻性网络能力](https://arxiv.org/abs/2503.11917)正是为此而设计的。这是迄今为止同类评估中最全面的:它涵盖了网络攻击链的每个阶段,涉及多种威胁类型,并以真实数据为基础。 我们的框架使网络安全专家能够在恶意行为者利用AI实施复杂网络攻击之前,识别出哪些防御措施是必要的,以及如何优先排序。 ## 建立全面的基准 我们更新的[前沿安全框架](https://deepmind.google/discover/blog/updating-the-frontier-safety-framework/)认识到先进AI模型可能会自动化和加速网络攻击,可能会降低攻击者的成本。这反过来又增加了大规模攻击被实施的风险。 为了领先应对AI驱动的网络攻击这一新兴威胁,我们采用了经过验证的网络安全评估框架,如[MITRE ATT&CK](https://attack.mitre.org/)。这些框架使我们能够评估贯穿整个网络攻击链(从侦察到目标行动)以及一系列可能攻击场景中的威胁。然而,这些既有框架并非为应对攻击者使用AI入侵系统的情况而设计的。我们的方法通过主动识别AI可能使攻击变得更快、更便宜或更容易的地方来弥补这一差距,例如通过实现完全自动化的网络攻击。 我们分析了来自20个国家超过12,000次真实的AI网络攻击尝试,数据来自[谷歌威胁情报小组](https://cloud.google.com/blog/topics/threat-intelligence/adversarial-misuse-generative-ai)。这帮助我们识别了这些攻击如何展开的常见模式。基于这些,我们整理了七个典型攻击类别清单——包括钓鱼、恶意软件和拒绝服务攻击——并识别了网络攻击链沿线的关键瓶颈阶段,AI可能在这些阶段显著改变传统的攻击成本。通过将评估重点放在这些瓶颈上,防御者可以更有效地优先安排安全资源。 网络攻击链的各个阶段 最后,我们创建了一个进攻性网络能力基准,以全面评估前沿AI模型的网络安全优势和弱点。我们的基准包含50个挑战,涵盖整个攻击链,包括情报收集、漏洞利用和恶意软件开发等领域。我们的目标是为防御者提供开发有针对性缓解措施和模拟AI驱动攻击(作为红队演习的一部分)的能力。 ## 早期评估的见解 我们使用此基准的初步评估表明,在隔离状态下,现有的AI模型不太可能为威胁行为者提供突破性能力。然而,随着前沿AI变得更加先进,可能的网络攻击类型也会演变,这要求持续改进防御战略。 我们还发现,现有的AI网络安全评估通常忽视网络攻击的重大方面——例如躲避(攻击者隐藏其存在)和持久化(攻击者维持对受损系统的长期访问)。但这些恰恰是AI驱动方法特别有效的领域。我们的框架通过讨论AI如何可能降低攻击这些部分成功的门槛,对这一问题进行了阐明。 ## 赋能网络安全社区 随着AI系统持续扩展,其自动化和增强网络安全的能力有可能改变防御者预期和应对威胁的方式。 我们的网络安全评估框架旨在通过提供AI可能如何被滥用,以及现有网络保护可能存在哪些不足的清晰视图来支持这一转变。通过突出这些新兴风险,该框架和基准将帮助网络安全团队加强防御,并领先于快速演变的威胁。 ### 走上通往AGI的负责任之路

相似文章

随着AI能力提升,强化网络防御能力

OpenAI Blog

OpenAI 发布了一套管理AI模型网络能力的综合框架,指出在 CTF 性能上取得了显著进步(从 GPT-5 的 27% 提升到 GPT-5.1-Codex-Max 的 76%),并概述了纵深防御措施,以确保先进模型主要造福防御方,同时限制恶意使用。

为AI的恶意使用做准备

OpenAI Blog

OpenAI与领先研究机构合作共同撰写了一份综合论文,预测AI可能被恶意使用的方式并提出缓解策略。该研究强调承认AI的双重用途特性、借鉴网络安全实践,以及扩大围绕AI安全风险的利益相关者讨论。

加强我们的前沿安全框架

Google DeepMind Blog

DeepMind 发布了第三版前沿安全框架,扩展了风险范围以包括有害操纵和不对齐风险,并完善了风险评估流程和高级 AI 模型的治理协议。

保护人们免受有害操纵

Google DeepMind Blog

Google DeepMind 发布了新的研究成果和工具包,用于基于对超过 10,000 名参与者的研究,实证测量 AI 进行有害操纵的潜在能力。

通往AGI之路中的安全保护

OpenAI Blog

OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。