Doppel 的 AI 防御系统在攻击扩散前将其阻止

OpenAI Blog 2025/10/28 10:00 产品

摘要

Doppel 推出了由 OpenAI 的 GPT-5 和 o4-mini 模型驱动的 AI 防御系统，能够自主检测和阻止深度伪造和在线冒充攻击，将分析师工作负载减少 80%，响应时间从数小时缩短至数分钟。

Doppel 使用 GPT-5 和强化微调技术来阻止深度伪造和冒充攻击，将分析师工作负载减少 80%，响应时间从数小时缩短至数分钟。

查看缓存全文

缓存时间: 2026/04/20 14:49

# Doppel 的 AI 防御系统在攻击扩散前停止威胁来源：https://openai.com/index/doppel/ 一个冒充网站可以在一小时内启动、针对数千名用户，然后消失。这足以让攻击者造成真实伤害。而且借助生成式工具，他们可以在几秒内制造数百个类似的网站。 Doppel 最初是为了防御深度伪造和在线冒充而开发的，但很快意识到 AI 意味着威胁可能无限扩展。攻击者不再需要手工制作诈骗；他们可以在几秒内生成无数个钓鱼工具包变体、欺骗域名和冒充账户。 > "网络钓鱼攻击造成的伤害可能在几分钟内就会发生，因为它们会在社交媒体和消息应用中迅速传播。以几乎零成本生成无限说服力的能力改变了一切。" —Rahul Madduluri，联合创始人兼 CTO，Doppel 为了保持领先，Doppel 基于 OpenAI GPT-5 和 o4-mini 模型开发了一种新型社会工程防御系统。Doppel 的平台可以自主检测、分类和清除威胁，将分析员工作量减少 80%，威胁处理能力增加三倍，应对时间从数小时缩短到数分钟。传统数字风险防护依赖人工手动审查冒充网站、钓鱼域名、社交媒体账户和帖子。Doppel 看到了这个模型的破裂，因为攻击者开始自动化，发起威胁的速度和范围都超过了人类的评估能力。 > "我们的系统处理不断涌入的信号流，从噪音中识别真实威胁。一旦检测到威胁，行动的时间窗口就非常狭窄，在造成伤害之前必须采取行动。使用 AI 自动化决策是公司最大的突破之一，使我们能够以互联网规模和速度对抗攻击。" —Rahul Madduluri，联合创始人兼 CTO，Doppel 这种速度对 Doppel 的客户至关重要，这些组织无法承受花费数小时确认威胁的代价。Doppel 的系统自动分类大多数威胁，使用 OpenAI 模型进行推理和一种称为强化微调 (RFT) 的结构化反馈循环来改进模型。在 RFT 中，人类反馈被用作分级示例，帮助模型学会自己做出一致、可解释的决策。 Doppel 的 LLM 驱动管道位于其检测堆栈的中心。在信号被采集和过滤后，系统执行一系列有针对性的推理任务：推理潜在威胁、确认意图和驱动分类决策。每个阶段都旨在平衡速度、准确性和一致性，同时让分析员专注于需要人工判断的边界情况。工作原理如下： - **信号过滤和特征提取：** Doppel 的系统每天摄入数百万个域名、URL 和账户。启发式方法和 OpenAI o4-mini 的组合过滤噪音并提取结构化特征，指导下游模型评估。 - **并行威胁确认：** 每个信号都通过多个专为不同类型威胁分析而设计的 GPT-5 提示。这些提示评估冒充风险、品牌滥用或社会工程模式等因素。 - **威胁分类：** RFT 版本的 o4-mini 综合早期确认，分配结构化标签——恶意、良性或模糊——具有生产级一致性。 - **最终验证：** 第二次 GPT-5 传递验证模型的决策并生成自然语言解释。如果置信度超过阈值，系统自动启动执法。 - **人工审查：** 低置信度或相互矛盾的结果被路由到人工分析员。他们的决策被记录并反馈到 RFT 循环中，以持续改进模型一致性。 Doppel 已经从其原始的 LLM 增强检测管道中看到了有意义的收益，但当涉及同一威胁可能因分析员而被判断不同的情况时，一致性成为了限制因素。 > "RFT 带来的一个真实好处是使模型的决策更加一致。" —Kiran Arimilli，软件工程师，Doppel 为了建立一致性，Doppel 使用自己的分析员数据作为反馈源应用 RFT。每个将域名分类为恶意、良性或不清楚的决策都成为一个分级示例。这些标记示例训练模型复制专家判断，甚至在模糊的边界情况下也是如此。与 OpenAI 应用工程团队密切合作，Doppel 设计了评分函数，不仅评估准确性，还评估解释质量，奖励推理清晰而不仅仅正确的模型。通过将分析员反馈转化为结构化训练数据，Doppel 帮助展示了 RFT 如何使自动检测更加一致和可靠。超参数调整和迭代评估使模型更接近人级一致性。但对于 Doppel，完成自动化的最后一英里也意味着让决策立即易于理解。每个自动清除现在都包括一个 AI 生成的解释，说明为什么威胁被移除，让客户立即了解为什么采取了行动——这曾经需要分析员干预。仪表板视图显示域名"d0ppel.click"的清除警报，该域名因冒充 Doppel 而被标记。摘要引用了网络钓鱼和凭证窃取，右侧的时间线显示了从 2025 年 10 月 10 日创建到解决的状态更新。这种可见性增强了信任，这是 Doppel 用户的关键因素。看到不仅采取了什么行动，还看到了为什么，让团队有信心快速应对，并有背景向内部或利益相关者解释这些决策。 - 分析员工作量减少 80% - 威胁应对时间从数小时缩短到数分钟 - 威胁处理能力增加三倍 - 大多数威胁自动分类在接近完全自动化网络钓鱼和冒充域名后，Doppel 现在将同样的模型驱动框架应用于其他高差异度的渠道。 "域名可能是我们处理的最困难的渠道，"Madduluri 说。"信号很复杂，内容不断变化，威胁在多个表面上快速演变。如果我们能够端到端自动化这些，我们就能对任何事情进行自动化：社交媒体、付费广告，等等。" 下一个里程碑包括将其 RFT 数据集扩展一个数量级，尝试新的评分策略，以及使用 GPT-5 进行上游特征提取。这些变化将允许 Doppel 整合管道阶段，并在流程早期对更复杂的威胁指标进行推理。通过每次迭代，Doppel 正在构建一个系统，在信任受到攻击的每个地方防御真实信息。

Doppel 的 AI 防御系统在攻击扩散前将其阻止

相似文章

利用 OpenAI 快速解决数字威胁，速度提升 100 倍

随着AI能力提升，强化网络防御能力

评估先进AI的潜在网络安全威胁

破坏隐蔽影响力行动对AI的欺骗性使用

DALL·E 2 预训练风险缓解措施

提交意见反馈