RedBench:大型语言模型综合红队测试通用数据集
摘要
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。
arXiv:2601.03699v2 公告类型:替换
摘要:随着大型语言模型(LLM)在安全关键应用中的广泛应用,确保其对对抗提示的鲁棒性至关重要。然而,现有红队测试数据集存在风险分类不一致、领域覆盖有限和评估过时等问题,阻碍了系统的漏洞评估。为了应对这些挑战,我们推出了 RedBench,一个通用数据集,聚合了来自顶级会议和存储库的 37 个基准数据集,包含 29,362 个攻击和拒绝提示样本。RedBench 采用了包含 22 个风险类别和 19 个领域的标准化分类体系,支持对 LLM 漏洞进行一致和综合的评估。我们提供了对现有数据集的详细分析,为现代 LLM 建立了基准,并开源了数据集和评估代码。我们的贡献有助于进行稳健的比较、促进未来的研究,并推动开发安全可靠的 LLM 以供实际部署。代码:https://github.com/knoveleng/redeval
查看缓存全文
缓存时间: 2026/04/20 08:31
# RedBench:大语言模型全面红队测试的通用数据集
来源:https://arxiv.org/html/2601.03699
Quy-Anh Dang、Chris Ngo
Knovel Engineering Lab
Knovel Engineering
新加坡
{quyanh.dang, chris.ngo}@knoveleng.com
通讯作者:[email protected]
本工作同时在我攻读越南国家大学科学系硕士学位期间完成。
Truong-Son Hy
计算机科学系
阿拉巴马大学伯明翰分校
美国
[email protected]
###### 摘要
随着大语言模型(LLMs)日益应用于安全关键型应用,确保其对抗性提示的鲁棒性至关重要。然而,现有的红队测试数据集存在风险分类不一致、领域覆盖有限、评估过时等问题,阻碍了系统性的漏洞评估。为了解决这些挑战,我们引入RedBench,一个通用数据集,汇聚了来自领先会议和知名库的37个基准数据集,包含29,362个攻击和拒绝提示样本。RedBench采用包含22个风险类别和19个领域的标准化分类法,能够对LLM漏洞进行一致性和全面的评估。我们提供了对现有数据集的详细分析,为现代LLMs建立了基准,并开源了数据集和评估代码。我们的贡献促进了稳健的比较,推动了未来研究,并促进了安全可靠的LLMs的开发,用于实际部署。
代码:https://github.com/knoveleng/redeval
警告:本文包含可能具有冒犯性、有害或偏见的示例。
## 1 引言
大语言模型(LLMs)改变了自然语言处理的格局,在多种应用中表现出色,包括多语言翻译、医学诊断、工具增强推理和对话协助等。随着LLMs越来越多地支持医疗和法律咨询等安全关键领域,它们对抗对抗性输入的鲁棒性已成为一个重要问题。
对抗性提示——精心设计的输入,旨在利用模型漏洞并引发不安全、偏见或错误的回复——对LLMs的可靠性和可信度构成了重大风险。解决这些漏洞既是技术上的必要,也是伦理上的要求,以确保LLMs在实际环保中的安全和负责任的部署。
尽管越来越多的数据集旨在调查LLM漏洞,如AdvBench、HarmBench和Do-Not-Answer,但仍存在重大挑战。现有数据集通常采用风险类别的不一致定义,范围和格式差异大,缺乏对特定领域或用例的全面覆盖。例如,某些数据集仅关注毒性或偏见,而其他数据集则强调越狱技术,导致评估框架碎片化。这种不一致引出了一个关键研究问题:为什么没有一个通用数据集提供一致的风险分类和多样化领域的全面评估?此外,还出现了另一个相关问题:现有数据集优先考虑哪些风险类别和领域,以及这些如何与现实世界的LLM部署场景相一致?
此外,之前的红队测试方法,包括RainbowPlus、AutoDAN、Tree-of-Attacks和GPTFuzzer等,主要评估了较早的LLM架构。这些研究往往缺乏与最近发布的最先进模型(如Qwen2.5、Llama 3.1和Gemma 2)的比较。这一差距引出了另一个关键研究问题:现代LLMs在红队测试评估中的表现如何,从基准测试其鲁棒性中可以获得哪些新见解?
为了解决这些研究问题,我们引入**RedBench**,一个为推进LLM红队测试而设计的新型通用数据集。RedBench汇聚并协调了来自领先会议和有影响力论文的37个现有数据集,为评估LLM漏洞提供了标准化框架。通过系统分析这些数据集覆盖的风险类别和领域,RedBench提供了对当前红队测试资源格局的全面概览。此外,我们从RedBench中选择了有针对性的子数据集,为现代LLMs建立基准,能够进行稳健的比较并促进未来的研究。为了确保可访问性和可重复性,我们开源了RedBench数据集和相关评估代码。
我们的研究做出了以下贡献:
- **RedBench数据集**:一个通用数据集,整合了37个现有的红队测试数据集,提供一致的风险分类和领域的全面覆盖,以实现标准化的LLM评估。
- **全面分析**:对现有数据集中的风险类别和领域进行详细分析,突出了未来红队测试研究中的差距和机会。
- **现代LLMs的基准**:对最先进的LLMs(包括Qwen2.5、Llama 3.1和Gemma2)的评估基准,以评估它们对抗对抗性提示的鲁棒性,并促进比较研究。
- **开源资源**:公开提供的数据集和评估代码,以促进透明度、可重复性和LLM红队测试领域的社区驱动进展。
## 2 方法论
### 2.1 数据收集
为了构建RedBench——一个用于红队测试大语言模型的高质量和全面的数据集,我们汇聚了来自领先同行评审会议、期刊和可靠库的37个基准数据集。这些来源包括神经信息处理系统会议(NeurIPS)、计算语言学协会年会(ACL)、国际机器学习会议(ICML)、国际学习表征会议(ICLR)以及预印本库arXiv等著名会议。
选择标准优先考虑同行评审状态、与红队测试目标的相关性以及多样化风险情景的覆盖,确保了通用红队测试数据集的稳健和代表性基础。
生成的语料库包含29,362个样本,涵盖范围广泛的提示类型,旨在探测LLM漏洞。这些样本分为两个主要红队测试方向:
- **攻击**:该方向评估模型对有害或对抗性提示的易感性,这些提示旨在引发不安全、偏见或错误的回复。在37个数据集中,33个关注该方向,包括众所周知的基准如HarmBench、AdvBench和DAN。这些数据集包含旨在利用毒性、错误信息和越狱等领域漏洞的指令。
- **拒绝**:该方向评估模型倾向于过度防守,拒绝良性或合法提示的倾向,这可能会阻碍可用性。四个数据集涉及该方向:CoCoNot、ORBench、SGXTest和XSTest。这些数据集包含旨在测试适当拒绝行为边界的提示,确保模型不会不必要地拒绝无害请求。
这种双重焦点方法确保RedBench既捕获攻击型漏洞(通过攻击提示),也捕获防守过度(通过拒绝提示),为评估LLM鲁棒性提供了全面框架。
参见图1
**图1**:RedBench中37个基准数据集的出版来源分布。该图说明了高质量来源的多样性,arXiv、ACL、NeurIPS和ICLR是最常见的。
数据集来源的分布反映了所收集数据集的多样性和学术严谨性。大多数数据集来自arXiv(8个数据集)、ACL(6个数据集)、NeurIPS(6个数据集)和ICLR(6个数据集),强调了这些场地在LLM和红队测试研究中的重要性。EMNLP、ACM、ICML、EACL、USENIX和NAACL的额外贡献确保了广泛的观点和方法的代表性。图1提供了这个分布的可视化表示,突出了预印本库和同行评审会议论文之间的平衡。
为了确保RedBench的质量和相关性,每个数据集都根据几个标准进行了精心整理:
(1)**任务相关性**:数据集因其与红队测试目标的一致性而被选中,重点关注测试模型安全性、鲁棒性或拒绝行为的提示。
(2)**风险情景覆盖**:这些数据集共同覆盖广泛的风险类别,包括毒性、偏见、错误信息、越狱和过度拒绝,涉及攻击和防守失败模式。
(3)**数据完整性**:仅包括具有清晰文档、可重复提示和经过验证来源的数据集,以确保可靠性和可用性。
这种严格的策划流程保证了RedBench在多样化的红队测试场景中评估LLMs时充当高质量、标准化的资源。通过汇聚和协调这37个数据集,RedBench为红队测试研究提供了统一和全面的平台。该数据集对攻击和拒绝提示的广泛覆盖,加上其多样化和可信的来源,使RedBench成为基准测试现代LLMs和推进健壮安全语言模型开发的宝贵工具。
### 2.2 数据集分类法
现有红队测试数据集的一个关键限制是风险定义和分类中缺乏一致性,这常常导致标签重叠、模糊或定义不清。这种碎片化阻碍了跨数据集的比较,并复杂化了LLM漏洞的系统评估。
为了应对这一挑战,我们为RedBench中的对抗性提示开发了标准化分类法,为29,362个样本中的每一个分配两个标签:**风险类别**和**领域**。该分类法统一了不同的数据集,确保了风险和背景分类的清晰度,并促进了跨多样化情景的全面红队测试评估。
该分类法围绕两个维度构建:**风险类别**,识别提示可能引发的伤害或滥用类型,以及**领域**,指定提示所处的背景区域。通过应用这种双重标签方法,RedBench使研究人员能够以细粒度分析LLM漏洞,支持广泛的风险评估和特定领域的调查。
以下小节详细说明了这些标签的定义和标注过程。
#### 2.2.1 风险类别
我们定义了22个不同的风险类别,每个类别对应于LLMs可能启用或加剧的特定伤害或滥用类型。这些类别在表8中呈现,是通过对现有红队测试框架、NIST和OWASP等组织的安全指南的系统审查而开发的。每个类别都被精确定义以避免重叠,基于现实世界的影响,并适用于广泛的测试场景。对于设计用来评估拒绝行为的提示(即不应被拒绝的良性提示),我们将**风险类别**分配为"无风险",以将其与对抗性提示区分开来。
#### 2.2.2 领域
为了捕捉对抗性提示的背景多样性,我们定义了19个领域,每个代表LLMs的特定应用领域或用例。这些领域在表9中列出,受到对LLM部署场景的全面分析、利益相关者咨询和应用特定红队测试研究的启发。这些领域范围从医疗保健和军事等专业领域到一般知识等更广泛领域,确保RedBench反映了LLMs运作的多方面背景。
#### 2.2.3 标注流程
为了为RedBench中的所有29,362个样本分配**风险类别**和**领域**标签,我们实施了一个半自动化的标注流程,将最先进的LLMs的效率与人工监督的可靠性相结合。该过程使用了Qwen2.5-72B-Instruct,因其强大的指令跟随能力和在分类任务中的高性能而被选中,这一选择通过在300个提示的随机样本上与人工标注者的高一致性进一步验证(详见附录C)。
标注流程如下进行:
1. **提示设计**:我们开发了详细的提示来指导LLM进行分类相似文章
大语言模型红队测试框架:以忠实性评估为例
本文提出了一种针对大语言模型的红队测试框架,采用多角色架构系统性地揭示模型漏洞,尤其在忠实性方面。该框架在问答任务中实现了攻击成功率提升7.9%,并强调了架构选择对模型安全性的影响超过参数规模。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
RedactionBench
RedactionBench 是一个手工标注的基准,用于评估大语言模型中的上下文个人身份信息(PII)脱敏,提出了 R-Score 指标,并表明上下文脱敏仍是一个未解决的问题。
MCBench: 面向全模态大语言模型的多语境安全评估基准
MCBench是一个新基准,用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景,并发现当前模型难以进行跨模态安全推理。
它们能走多远?利用大型语言模型对在线影响力进行红队测试
本文介绍了一个红队测试框架,用于衡量开源LLM能够表达的政治观点的“奥弗顿窗口”,并评估简单的越狱手段如何扩大该范围,发现30多个模型存在系统性的左倾偏见和漏洞。