@mylifcc: AI 安全红队神器来了! 刚刚发现一个超硬核的开源项目 —— DeepTeam! 由 Confident AI 出品,基于 DeepEval 打造的 LLM Red Teaming 框架,专门用来“黑”你自己的大模型: 50+ 种真实漏洞…

X AI KOLs Timeline 工具

摘要

Confident AI 发布了名为 DeepTeam 的开源 LLM 红队测试框架,支持 50+ 种漏洞检测和 20+ 种对抗攻击,旨在帮助开发者安全地测试大语言模型。

AI 安全红队神器来了! 刚刚发现一个超硬核的开源项目 —— DeepTeam! 由 Confident AI 出品,基于 DeepEval 打造的 LLM Red Teaming 框架,专门用来“黑”你自己的大模型: 50+ 种真实漏洞(PII 泄露、越狱、Prompt Injection、SQL 注入、偏见、毒性、工具滥用…) 20+ 种对抗攻击(单轮 + 多轮线性/树状 jailbreaking) 原生支持 OWASP Top 10 for LLM、NIST AI RMF、MITRE ATLAS 等主流安全框架 内置 7 个生产级 Guardrails,实时拦截 一行代码就能跑本地红队测试,完全本地执行
查看原文

相似文章

用人和AI推进红队测试

OpenAI Blog

OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。

RedBench:大型语言模型综合红队测试通用数据集

arXiv cs.CL

RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。

评估先进AI的潜在网络安全威胁

Google DeepMind Blog

DeepMind发布了一个综合框架,用于评估先进AI模型的进攻性网络安全能力,分析了遍布20个国家的12000多次真实AI驱动的网络攻击,并创建了涵盖整个攻击链的50个挑战基准,帮助防御者优先配置安全资源。