@mylifcc: AI 安全红队神器来了! 刚刚发现一个超硬核的开源项目 —— DeepTeam! 由 Confident AI 出品,基于 DeepEval 打造的 LLM Red Teaming 框架,专门用来“黑”你自己的大模型: 50+ 种真实漏洞…
摘要
Confident AI 发布了名为 DeepTeam 的开源 LLM 红队测试框架,支持 50+ 种漏洞检测和 20+ 种对抗攻击,旨在帮助开发者安全地测试大语言模型。
AI 安全红队神器来了! 刚刚发现一个超硬核的开源项目 —— DeepTeam! 由 Confident AI 出品,基于 DeepEval 打造的 LLM Red Teaming 框架,专门用来“黑”你自己的大模型: 50+ 种真实漏洞(PII 泄露、越狱、Prompt Injection、SQL 注入、偏见、毒性、工具滥用…) 20+ 种对抗攻击(单轮 + 多轮线性/树状 jailbreaking) 原生支持 OWASP Top 10 for LLM、NIST AI RMF、MITRE ATLAS 等主流安全框架 内置 7 个生产级 Guardrails,实时拦截 一行代码就能跑本地红队测试,完全本地执行
相似文章
@DailyDoseOfDS_: OpenAI 为此支付了 50 万美元!> 寻找 LLM 漏洞的 Kaggle 竞赛 DeepTeam 免费实现 20+…
DeepTeam 是一款免费的开源工具,实现了 20 多种最先进的攻击技术,可检测包括偏见和个人信息(PII)泄露在内的 50 多种 LLM 漏洞,可在本地运行且无需数据集。
TRIDENT:通过三维多样化红队数据合成增强大型语言模型安全性
TRIDENT是一个新颖的框架和数据集合成管道,用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比,危害分数降低14.29%,攻击成功率下降20%。
用人和AI推进红队测试
OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。
RedBench:大型语言模型综合红队测试通用数据集
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。
评估先进AI的潜在网络安全威胁
DeepMind发布了一个综合框架,用于评估先进AI模型的进攻性网络安全能力,分析了遍布20个国家的12000多次真实AI驱动的网络攻击,并创建了涵盖整个攻击链的50个挑战基准,帮助防御者优先配置安全资源。