SafetyKit 利用 OpenAI 最强大模型扩展风险智能体

OpenAI Blog 产品

摘要

SafetyKit 推出由 OpenAI 的 GPT-5、GPT-4.1 和专有技术驱动的 AI 智能体,可在文本、图像和金融交易中检测欺诈和违规活动,准确率超过 95%。该解决方案使市场平台和金融科技公司能够大规模自动化风险检测、策略执行和内容审核。

了解 SafetyKit 如何利用 OpenAI GPT-5 增强内容审核、强化合规性,并以更高的准确率超越传统安全系统。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:48

# SafetyKit 通过 OpenAI 最强大的模型扩展风险代理规模 来源:https://openai.com/index/safetykit/ SafetyKit(https://www.safetykit.com/)开发多模态 AI 代理,帮助市场、支付平台和金融科技公司检测和应对文本、图像、金融交易、产品列表等方面的欺诈和违禁活动。模型推理和多模态理解方面的最新突破现已使这项工作更加有效,为风险、合规和安全运营设立了新标准。 SafetyKit 的代理利用 GPT-5、GPT-4.1、深度研究和计算机使用代理(CUA)以超过 95% 的准确率审查 100% 的客户内容(基于 SafetyKit 的评估)。这些代理可以帮助平台保护用户、防止欺诈、避免监管罚款,并执行传统系统可能遗漏的复杂政策,例如地区特定规则、诈骗图像中嵌入的电话号码或不当内容。自动化还可以保护人类审核员不接触令人反感的材料,让他们专注于处理需要人工判断的复杂政策决策。 > "OpenAI 让我们能够使用市场上最先进的推理和多模态模型。这使我们能够快速适应、更快地部署新代理,并处理其他解决方案甚至无法解析的内容类型。" SafetyKit 创始人兼 CEO David Graunke SafetyKit 的每个代理都旨在处理特定的风险类别,从诈骗到违禁产品。所有内容都被路由到最适合该违规的代理,使用最优的 OpenAI 模型: - GPT-5 在文本、图像和 UI 上应用多模态推理,以发现隐藏风险并支持分层、精确的决策制定 - GPT-4.1 可靠地遵循详细的内容政策说明,并有效管理高容量审核工作流 - 强化微调(RFT)提高了超出默认模型的召回率和精准度,在复杂安全政策中实现前沿性能 - 深度研究将实时在线调查整合到商家评价和验证中 - 计算机使用代理(CUA)自动化复杂政策任务,减少对成本高昂的人工审查的依赖 这种模型匹配方法让 SafetyKit 能够以更细致和准确的方式跨多种模式扩展内容审查,超越传统解决方案的能力。 例如,诈骗检测代理不仅仅扫描文本。它还分析视觉内容,如产品图像中嵌入的二维码或电话号码。GPT-4.1 帮助它解析图像、理解布局,并判断是否违反政策。 政策披露代理检查列表或落地页是否包含必需的语言,例如法律声明或特定地区的合规警告。GPT-4.1 提取相关部分,GPT-5 评估合规性,代理标记违规情况。 "我们将代理视为专门构建的工作流,"Graunke 说,"某些任务需要深度推理,其他任务需要多模态上下文。OpenAI 是唯一能在两者上都提供可靠性能的技术栈。" 政策决策往往取决于细微差别。以要求卖家为保健产品附上免责声明的市场为例,要求会根据产品声称和地区规则而有所不同。传统供应商使用关键词触发器或严格的规则集,这可能会遗漏这些决策可能需要的更深层判断,导致执行遗漏或不正确。 SafetyKit 的政策披露代理首先参考 SafetyKit 内部库中的政策,然后 GPT-5 评估内容:它是否提到治疗或预防?是否在披露是强制性的地区出售?如果是,列表中是否实际包含了所需的语言?如果有任何缺陷,GPT-5 会返回一个结构化输出,代理使用该输出来标记问题。 "GPT-5 的强大之处在于,当以真实政策为基础时,它能够多么精确地进行推理,"Graunke 指出,"它让我们能够做出准确、可辩护的决策,即使在其他系统失效的边界情况下。" SafetyKit 对每个新的 OpenAI 模型的最难案例进行基准测试,通常在同一天部署表现最好的模型。严格的内部评估让团队能够快速识别新模型如何改进性能,并无缝整合到其核心基础设施中。 当 OpenAI o3 推出时,SafetyKit 用它来提升关键政策领域的边界情况性能。GPT-5 随后推出,在几天内,它被部署到其最复杂的代理中,在最难的视觉任务上将基准分数提高了 10 多个百分点。 > "OpenAI 发展迅速,我们的系统设计能够跟上。每个新版本都给了我们运营优势——释放了我们之前无法支持的新功能和领域,并提高了我们向客户交付的覆盖范围和准确性。" ——SafetyKit 创始人兼 CEO David Graunke SafetyKit 还将改进反馈给生态系统,直接与 OpenAI 分享评估结果、边界情况失败和政策特定的见解,以帮助塑造安全关键工作负载的未来模型性能。 SafetyKit 的架构大规模执行政策,提供速度、精准度和全面的风险覆盖。在幕后,它现在每天处理超过 160 亿个 token,比六个月前的 2 亿个 token 大幅增加,在不牺牲准确性的情况下分析更多内容。 在同一时期,SafetyKit 已扩展到支付风险、欺诈、反儿童性剥削、反洗钱,以及新客户,保护数亿最终用户。这个基础使客户能够迅速、自信地应对新兴风险。 "我们创建了一个循环,其中每个 OpenAI 版本都直接加强我们的能力,"Graunke 说,"这就是为什么系统不断改进,始终领先于不断演变的风险。" - 95% 以上准确率审查 100% 的客户内容 - 每天处理 160 亿个 token,比六个月前的 2 亿增长 - 最难视觉任务上基准分数提升 10 多个百分点

相似文章

帮助开发者构建更安全的青少年AI体验

OpenAI Blog

OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。

金融服务

OpenAI Blog

OpenAI Academy 推出专门的金融服务资源中心,包含精选提示词、GPT 模板和指导,帮助银行、资产管理公司和保险公司在受监管环境中评估、部署和扩展 AI。

通过外部测试强化我们的安全生态系统

OpenAI Blog

OpenAI宣布通过外部第三方测试和评估前沿AI模型来加强安全生态系统,包括独立评估、方法论审查和领域专家探测。该公司承诺通过公开分享第三方评估结果和自GPT-4推出以来支持独立评估来提高透明度。