通往AGI之路中的安全保护
摘要
OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。
在 OpenAI,我们主动进行调整,包括直接在我们的基础设施和模型中构建全面的安全措施。
查看缓存全文
缓存时间: 2026/04/20 14:51
# 通往 AGI 的安全之路
来源:https://openai.com/index/security-on-the-path-to-agi/
安全威胁不断演变,随着我们接近 AGI,我们预计对手会变得更加顽强、数量更多且更加持久。在 OpenAI,我们以多种方式主动适应,包括在基础设施(https://openai.com/index/securing-research-infrastructure-for-advanced-ai/)和模型中直接构建全面的安全措施。
**AI 驱动的网络防御**为了保护我们的用户、系统和知识产权,我们利用自己的 AI 技术来扩展网络防御能力。我们开发了先进的方法来检测网络威胁并快速响应。作为传统威胁检测和事件响应策略的补充,我们的 AI 驱动安全代理有助于增强威胁检测能力,能够快速应对不断演变的对抗战术,并为安全团队提供精确、可操作的情报来对抗复杂的网络攻击。
**持续对抗性红队测试**我们与安全研究和对抗操作领域的知名专家 SpecterOps(https://specterops.io/) 合作,通过在我们的基础设施(包括企业、云和生产环境)中进行逼真的模拟攻击,严格测试我们的安全防御。这些持续评估使我们能够主动识别漏洞,增强检测能力,并加强应对复杂威胁的响应策略。除了这些评估外,我们还在合作生成先进的技能培训,以提升我们在模型能力中的技能,以便采用更好的技术来保护我们的产品和模型。
**破坏威胁行为体并主动打击恶意 AI 滥用**我们持续监测并破坏恶意行为体利用我们技术的企图(https://openai.com/global-affairs/disrupting-malicious-uses-of-ai/)。当我们识别针对我们的威胁(例如最近针对我们员工的鱼叉式网络钓鱼活动(https://cdn.openai.com/threat-intelligence-reports/influence-and-cyber-operations-an-update_October-2024.pdf))时,我们不仅防御自己,还与其他 AI 实验室分享专业知识,以加强我们的集体防御。通过分享这些新兴风险并在行业和政府之间开展合作,我们帮助确保 AI 技术的开发和部署更加安全。
**保护新兴 AI 代理**随着我们推出 Operator(https://openai.com/index/introducing-operator/) 和 deep research(https://openai.com/index/introducing-deep-research/) 等高级 AI 代理,我们致力于理解和减轻此类技术带来的独特安全和弹性挑战。我们的工作包括开发强大的对齐方法以防御提示注入攻击、加强基础设施安全、实施代理监控控制以快速检测和缓解意外或有害行为。作为其中一部分,我们正在构建统一管道和模块化框架,以在代理操作和形式上提供可扩展的实时可见性和执行。
**未来 AI 倡议的安全**安全是下一代 AI 项目(如 Stargate(https://openai.com/index/announcing-the-stargate-project/))设计和实施的基石。我们与合作伙伴合作,采用业界领先的安全实践,如零信任架构和硬件支持的安全解决方案。在我们大幅扩展物理基础设施的地方,我们密切合作以确保我们的物理保障措施与我们的 AI 能力齐头并进。这些策略包括实施先进的访问控制、全面的安全监控、密码学保护和纵深防御。这些做法结合对软硬件供应链安全的关注,有助于从头开始构建基础安全。
**扩展我们的安全计划**我们在多个方面扩展了我们的安全计划,并正在寻找在多个领域的热情工程师。如果你有兴趣保护 OpenAI 和我们的客户——并构建安全可信的 AI 的未来——我们很乐意听到你的声音(https://jobs.ashbyhq.com/openai/form/security-blog-post-march-2025)!
相似文章
为 AGI 及其未来做好准备
OpenAI 阐述了为 AGI 做准备的战略,强调通过真实世界反馈循环进行渐进式部署,随着系统接近 AGI 能力而提高谨慎程度,以及开发更好的对齐技术以确保 AI 系统保持可控和安全。
走向AGI的负责任之路
DeepMind发布了一套关于AGI安全与安保的综合方案,阐述了系统性框架来应对滥用、失对齐、意外事故和结构性风险,为即将到来的通用人工智能做准备。
保障AI代理的未来安全
DeepMind推出了AI Control Roadmap,这是一个深度防御框架,用于保护内部AI代理免受潜在的不对齐问题的影响,将其视为内部威胁,并实施分层检测、预防和响应措施。
如果智能体(Agentic)AI 安全不再是个问题?
本文介绍了 Sentinel Gateway,一种旨在通过将操作限制在预定义范围内、防止数据泄露并确保智能体操作完全可追溯来保证 AI 智能体安全性的安全中间件。
智能时代的网络安全
OpenAI发布了一份全面的行动计划,旨在普及AI驱动的网络防御,并与政府及行业合作应对不断演变的网络威胁。