增强 Gemini 的安全保护

Google DeepMind Blog 2025/05/20 09:45 新闻

摘要

Google DeepMind 宣布为 Gemini 推出高级安全改进措施，通过模型加固、自适应评估和分层防御机制来防御间接提示注入攻击。该方法结合了对抗场景的微调和系统级防护栏，在保持模型性能的同时构建了内在的抗御能力。

我们已将 Gemini 2.5 打造成迄今为止我们最安全的模型系列。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:35

# 推进Gemini的安全防护来源：https://deepmind.google/blog/advancing-geminis-security-safeguards/ 2025年5月20日责任与安全 ## 为自适应攻击定制评估基础防御措施对于基本的非自适应攻击显示了良好效果，显著降低了攻击成功率。然而，恶意行为者越来越多地使用自适应攻击，这类攻击专门设计用来与ART配合演进和适应，以规避所测试的防御。成功的基础防御措施如Spotlighting或Self-reflection在面对自适应攻击时效果大幅下降，这些攻击学会了如何对付和绕过静态防御方法。这一发现说明了一个关键问题：仅根据对静态攻击的测试而依赖某些防御措施会产生虚假的安全感。为了实现强大的安全性，评估对防御措施做出响应性演进的自适应攻击是至关重要的。 ## 通过模型强化构建内在的抗攻击能力尽管外部防御和系统级防护措施很重要，但增强AI模型内在的识别和忽视嵌入在数据中恶意指令的能力也是必要的。我们将这个过程称为"模型强化"。我们在大型现实场景数据集上对Gemini进行了微调，其中ART生成了针对敏感信息的有效间接提示注入。这教会了Gemini忽视恶意嵌入指令并遵循原始用户请求，从而只提供应该给出的正确、安全的响应。这使得模型能够与生俱来地理解如何处理作为自适应攻击一部分而不断演进的受污染信息。这种模型强化大幅提升了Gemini识别和忽视注入指令的能力，降低了攻击成功率。更重要的是，在此过程中没有明显影响模型在正常任务上的性能。值得注意的是，即使进行了模型强化，也没有模型能够完全免疫。坚持不懈的攻击者仍可能发现新的漏洞。因此，我们的目标是让攻击对对手来说更加困难、成本更高、更加复杂。 ## 采取整体方法来保护模型安全保护AI模型免受间接提示注入等攻击需要"纵深防御"——使用多层保护，包括模型强化、输入/输出检查（如分类器）和系统级防护措施。防范间接提示注入是我们实现代理安全原则和指南(https://research.google/pubs/an-introduction-to-googles-approach-for-secure-ai-agents/)以负责任地开发代理的关键方式。对特定的、不断演进的威胁（如间接提示注入）来保护先进AI系统是一个持续的过程。它需要进行持续的自适应评估、改进现有防御措施并探索新的防御方法，以及在模型本身中构建内在的抗攻击能力。通过分层防御和不断学习，我们能够确保Gemini这样的AI助手既能提供令人难以置信的帮助，又值得信赖。要了解更多关于我们为Gemini构建的防御措施以及我们对使用更具挑战性、自适应攻击来评估模型鲁棒性的建议，请参阅GDM白皮书《从保护Gemini免受间接提示注入中吸取的教训》(https://storage.googleapis.com/deepmind-media/Security%20and%20Privacy/Gemini_Security_Paper.pdf)。

增强 Gemini 的安全保护

相似文章

Gemini 3 开启智能新时代

Gemini 2.5：我们最聪慧的模型进一步升级

Gemini 2.5：我们最智能的AI模型

Gemini 3 Deep Think：推动科学、研究与工程进步

推出 Gemini 2.0：我们为智能体时代打造的新型 AI 模型

提交意见反馈