Doppel 的 AI 防御系统在攻击扩散前将其阻止
摘要
Doppel 推出了由 OpenAI 的 GPT-5 和 o4-mini 模型驱动的 AI 防御系统,能够自主检测和阻止深度伪造和在线冒充攻击,将分析师工作负载减少 80%,响应时间从数小时缩短至数分钟。
Doppel 使用 GPT-5 和强化微调技术来阻止深度伪造和冒充攻击,将分析师工作负载减少 80%,响应时间从数小时缩短至数分钟。
查看缓存全文
缓存时间:
2026/04/20 14:49
# Doppel 的 AI 防御系统在攻击扩散前停止威胁
来源:https://openai.com/index/doppel/
一个冒充网站可以在一小时内启动、针对数千名用户,然后消失。这足以让攻击者造成真实伤害。而且借助生成式工具,他们可以在几秒内制造数百个类似的网站。
Doppel 最初是为了防御深度伪造和在线冒充而开发的,但很快意识到 AI 意味着威胁可能无限扩展。攻击者不再需要手工制作诈骗;他们可以在几秒内生成无数个钓鱼工具包变体、欺骗域名和冒充账户。
> "网络钓鱼攻击造成的伤害可能在几分钟内就会发生,因为它们会在社交媒体和消息应用中迅速传播。以几乎零成本生成无限说服力的能力改变了一切。"
—Rahul Madduluri,联合创始人兼 CTO,Doppel
为了保持领先,Doppel 基于 OpenAI GPT-5 和 o4-mini 模型开发了一种新型社会工程防御系统。Doppel 的平台可以自主检测、分类和清除威胁,将分析员工作量减少 80%,威胁处理能力增加三倍,应对时间从数小时缩短到数分钟。
传统数字风险防护依赖人工手动审查冒充网站、钓鱼域名、社交媒体账户和帖子。Doppel 看到了这个模型的破裂,因为攻击者开始自动化,发起威胁的速度和范围都超过了人类的评估能力。
> "我们的系统处理不断涌入的信号流,从噪音中识别真实威胁。一旦检测到威胁,行动的时间窗口就非常狭窄,在造成伤害之前必须采取行动。使用 AI 自动化决策是公司最大的突破之一,使我们能够以互联网规模和速度对抗攻击。"
—Rahul Madduluri,联合创始人兼 CTO,Doppel
这种速度对 Doppel 的客户至关重要,这些组织无法承受花费数小时确认威胁的代价。Doppel 的系统自动分类大多数威胁,使用 OpenAI 模型进行推理和一种称为强化微调 (RFT) 的结构化反馈循环来改进模型。在 RFT 中,人类反馈被用作分级示例,帮助模型学会自己做出一致、可解释的决策。
Doppel 的 LLM 驱动管道位于其检测堆栈的中心。在信号被采集和过滤后,系统执行一系列有针对性的推理任务:推理潜在威胁、确认意图和驱动分类决策。每个阶段都旨在平衡速度、准确性和一致性,同时让分析员专注于需要人工判断的边界情况。
工作原理如下:
- **信号过滤和特征提取:** Doppel 的系统每天摄入数百万个域名、URL 和账户。启发式方法和 OpenAI o4-mini 的组合过滤噪音并提取结构化特征,指导下游模型评估。
- **并行威胁确认:** 每个信号都通过多个专为不同类型威胁分析而设计的 GPT-5 提示。这些提示评估冒充风险、品牌滥用或社会工程模式等因素。
- **威胁分类:** RFT 版本的 o4-mini 综合早期确认,分配结构化标签——恶意、良性或模糊——具有生产级一致性。
- **最终验证:** 第二次 GPT-5 传递验证模型的决策并生成自然语言解释。如果置信度超过阈值,系统自动启动执法。
- **人工审查:** 低置信度或相互矛盾的结果被路由到人工分析员。他们的决策被记录并反馈到 RFT 循环中,以持续改进模型一致性。
Doppel 已经从其原始的 LLM 增强检测管道中看到了有意义的收益,但当涉及同一威胁可能因分析员而被判断不同的情况时,一致性成为了限制因素。
> "RFT 带来的一个真实好处是使模型的决策更加一致。"
—Kiran Arimilli,软件工程师,Doppel
为了建立一致性,Doppel 使用自己的分析员数据作为反馈源应用 RFT。每个将域名分类为恶意、良性或不清楚的决策都成为一个分级示例。这些标记示例训练模型复制专家判断,甚至在模糊的边界情况下也是如此。
与 OpenAI 应用工程团队密切合作,Doppel 设计了评分函数,不仅评估准确性,还评估解释质量,奖励推理清晰而不仅仅正确的模型。通过将分析员反馈转化为结构化训练数据,Doppel 帮助展示了 RFT 如何使自动检测更加一致和可靠。
超参数调整和迭代评估使模型更接近人级一致性。但对于 Doppel,完成自动化的最后一英里也意味着让决策立即易于理解。
每个自动清除现在都包括一个 AI 生成的解释,说明为什么威胁被移除,让客户立即了解为什么采取了行动——这曾经需要分析员干预。
仪表板视图显示域名"d0ppel.click"的清除警报,该域名因冒充 Doppel 而被标记。摘要引用了网络钓鱼和凭证窃取,右侧的时间线显示了从 2025 年 10 月 10 日创建到解决的状态更新。
这种可见性增强了信任,这是 Doppel 用户的关键因素。看到不仅采取了什么行动,还看到了为什么,让团队有信心快速应对,并有背景向内部或利益相关者解释这些决策。
- 分析员工作量减少 80%
- 威胁应对时间从数小时缩短到数分钟
- 威胁处理能力增加三倍
- 大多数威胁自动分类
在接近完全自动化网络钓鱼和冒充域名后,Doppel 现在将同样的模型驱动框架应用于其他高差异度的渠道。
"域名可能是我们处理的最困难的渠道,"Madduluri 说。"信号很复杂,内容不断变化,威胁在多个表面上快速演变。如果我们能够端到端自动化这些,我们就能对任何事情进行自动化:社交媒体、付费广告,等等。"
下一个里程碑包括将其 RFT 数据集扩展一个数量级,尝试新的评分策略,以及使用 GPT-5 进行上游特征提取。这些变化将允许 Doppel 整合管道阶段,并在流程早期对更复杂的威胁指标进行推理。
通过每次迭代,Doppel 正在构建一个系统,在信任受到攻击的每个地方防御真实信息。
相似文章
OpenAI Blog
Outtake 是一个由 GPT-4o 和 OpenAI o3 驱动的 AI 网络安全平台,通过部署持续运行的 AI 代理,每分钟扫描数百万个表面来检测和调查威胁,将威胁消除时间从 60 天缩短到几小时,速度提升 100 倍。
OpenAI Blog
OpenAI 发布了一套管理AI模型网络能力的综合框架,指出在 CTF 性能上取得了显著进步(从 GPT-5 的 27% 提升到 GPT-5.1-Codex-Max 的 76%),并概述了纵深防御措施,以确保先进模型主要造福防御方,同时限制恶意使用。
Google DeepMind Blog
DeepMind发布了一个综合框架,用于评估先进AI模型的进攻性网络安全能力,分析了遍布20个国家的12000多次真实AI驱动的网络攻击,并创建了涵盖整个攻击链的50个挑战基准,帮助防御者优先配置安全资源。
OpenAI Blog
OpenAI 报告破坏了五个试图滥用其 AI 模型进行欺骗性宣传的隐蔽影响力行动,研究结果表明安全设计的模型阻止了威胁行为者生成所需内容。该公司正在发布趋势分析,并与行业、民间社会和政府合作打击 AI 驱动的信息操纵。
OpenAI Blog
# DALL·E 2 预训练风险缓解措施 来源:[https://openai.com/index/dall-e-2-pre-training-mitigations/](https://openai.com/index/dall-e-2-pre-training-mitigations/) 在主动学习阶段,我们通过为可能存在困难或分类错误的图像收集人工标签,迭代改进分类器。值得注意的是,我们使用了两种主动学习技术从包含数亿个未标记图像的数据集中选择图像,以供人工标注。