增强 Gemini 的安全保护

Google DeepMind Blog 新闻

摘要

Google DeepMind 宣布为 Gemini 推出高级安全改进措施,通过模型加固、自适应评估和分层防御机制来防御间接提示注入攻击。该方法结合了对抗场景的微调和系统级防护栏,在保持模型性能的同时构建了内在的抗御能力。

我们已将 Gemini 2.5 打造成迄今为止我们最安全的模型系列。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:35

# 推进Gemini的安全防护 来源:https://deepmind.google/blog/advancing-geminis-security-safeguards/ 2025年5月20日 责任与安全 ## 为自适应攻击定制评估 基础防御措施对于基本的非自适应攻击显示了良好效果,显著降低了攻击成功率。然而,恶意行为者越来越多地使用自适应攻击,这类攻击专门设计用来与ART配合演进和适应,以规避所测试的防御。 成功的基础防御措施如Spotlighting或Self-reflection在面对自适应攻击时效果大幅下降,这些攻击学会了如何对付和绕过静态防御方法。 这一发现说明了一个关键问题:仅根据对静态攻击的测试而依赖某些防御措施会产生虚假的安全感。为了实现强大的安全性,评估对防御措施做出响应性演进的自适应攻击是至关重要的。 ## 通过模型强化构建内在的抗攻击能力 尽管外部防御和系统级防护措施很重要,但增强AI模型内在的识别和忽视嵌入在数据中恶意指令的能力也是必要的。我们将这个过程称为"模型强化"。 我们在大型现实场景数据集上对Gemini进行了微调,其中ART生成了针对敏感信息的有效间接提示注入。这教会了Gemini忽视恶意嵌入指令并遵循原始用户请求,从而只提供应该给出的正确、安全的响应。这使得模型能够与生俱来地理解如何处理作为自适应攻击一部分而不断演进的受污染信息。 这种模型强化大幅提升了Gemini识别和忽视注入指令的能力,降低了攻击成功率。更重要的是,在此过程中没有明显影响模型在正常任务上的性能。 值得注意的是,即使进行了模型强化,也没有模型能够完全免疫。坚持不懈的攻击者仍可能发现新的漏洞。因此,我们的目标是让攻击对对手来说更加困难、成本更高、更加复杂。 ## 采取整体方法来保护模型安全 保护AI模型免受间接提示注入等攻击需要"纵深防御"——使用多层保护,包括模型强化、输入/输出检查(如分类器)和系统级防护措施。防范间接提示注入是我们实现代理安全原则和指南(https://research.google/pubs/an-introduction-to-googles-approach-for-secure-ai-agents/)以负责任地开发代理的关键方式。 对特定的、不断演进的威胁(如间接提示注入)来保护先进AI系统是一个持续的过程。它需要进行持续的自适应评估、改进现有防御措施并探索新的防御方法,以及在模型本身中构建内在的抗攻击能力。通过分层防御和不断学习,我们能够确保Gemini这样的AI助手既能提供令人难以置信的帮助,又值得信赖。 要了解更多关于我们为Gemini构建的防御措施以及我们对使用更具挑战性、自适应攻击来评估模型鲁棒性的建议,请参阅GDM白皮书《从保护Gemini免受间接提示注入中吸取的教训》(https://storage.googleapis.com/deepmind-media/Security%20and%20Privacy/Gemini_Security_Paper.pdf)。

相似文章

Gemini 3 开启智能新时代

Google DeepMind Blog

Google 发布了其迄今为止最智能的模型 Gemini 3,具备增强的推理能力和多模态功能。该模型现已集成到 Google 各产品中,面向 Ultra 订阅用户的「深度思考」复杂问题求解模式即将推出。

Gemini 2.5:我们最聪慧的模型进一步升级

Google DeepMind Blog

谷歌发布 Gemini 2.5 系列更新,包括性能改进的 2.5 Pro 和 Flash 模型,新增功能包括 Deep Think(增强型推理模式)、原生音频输出和通过 Project Mariner 实现的计算机使用能力。这些模型现已在 WebDev Arena 和 LMArena 排行榜中领先。

Gemini 2.5:我们最智能的AI模型

Google DeepMind Blog

Google推出了Gemini 2.5,这是其最智能的AI模型。Gemini 2.5 Pro Experimental在LMArena基准测试中领先优势显著,并通过改进的思维模型架构展现了增强的推理和编码能力。

Gemini 3 Deep Think:推动科学、研究与工程进步

Google DeepMind Blog

Google 发布了 Gemini 3 Deep Think 的重大更新,这是一种专门的推理模式,旨在通过将深厚的科学知识与实际应用相结合,解决科学、研究和工程领域的复杂挑战。

推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。