TRIDENT:通过三维多样化红队数据合成增强大型语言模型安全性

arXiv cs.CL 论文

摘要

TRIDENT是一个新颖的框架和数据集合成管道,用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比,危害分数降低14.29%,攻击成功率下降20%。

arXiv:2505.24672v2 公告类型:替换 摘要:大型语言模型(LLM)在各种自然语言处理任务中表现出色,但仍容易生成有害内容或被用于恶意目的。虽然已经引入了安全对齐数据集,通过监督微调(SFT)来减轻这些风险,但这些数据集往往缺乏全面的风险覆盖。大多数现有数据集主要关注词汇多样性,而忽视了其他关键维度。为了解决这一限制,我们提出了一个新颖的分析框架,系统地衡量对齐数据集在三个关键维度上的风险覆盖:词汇多样性、恶意意图和越狱战术。我们进一步推出了TRIDENT,一个自动化管道,利用基于角色的零样本LLM生成来生成跨越这些维度的多样化和全面的指令。每条有害指令都配有符合伦理的响应,产生了两个数据集:包含26,311个示例的TRIDENT-Core和包含18,773个示例的TRIDENT-Edge。在TRIDENT-Edge上微调Llama 3.1-8B展示了显著的改进,平均危害分数降低14.29%,与在WildBreak数据集上微调的最佳基线模型相比,攻击成功率下降20%。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:31

# TRIDENT: 利用三维多样化红队数据合成增强大语言模型安全性
来源: https://arxiv.org/html/2505.24672
第一作者所属机构/地址第一行 所属机构/地址第二行 所属机构/地址第三行 email@domain 第二作者所属机构/地址第一行 所属机构/地址第二行 所属机构/地址第三行 email@domain Xiaorui Wu1,Xiaofeng Mao2,Fei Li1\*,Xin Zhang3, Xuanhong Li1,Chong Teng1,Donghong Ji1\*,Zhuang Li4† 1教育部航天信息安全与可信计算重点实验室,武汉大学网络空间安全学院,中国武汉 2蚂蚁集团3蚂蚁国际 4皇家墨尔本理工大学计算技术学院,澳大利亚 1\{wuxiaorui, lifei\_csnlp, lixuanhong, tengchong, dhji\}@whu\.edu\.cn 2mxf164419@antgroup\.com,3evan\.zx@ant\-intl\.com,4zhuang\.li@rmit\.edu\.au

###### 摘要

大语言模型(LLM)在各种自然语言处理任务中表现出色,但仍然容易生成有害内容或被利用于恶意目的。尽管已引入安全对齐数据集,通过监督微调(SFT)来降低这些风险,但这些数据集往往缺乏全面的风险覆盖。大多数现有数据集主要关注词汇多样性,而忽视了其他关键维度。为解决这一限制,我们提出了一个新颖的分析框架,用于系统地衡量对齐数据集在三个关键维度上的风险覆盖:词汇多样性、恶意意图和越狱策略。我们进一步引入了TRIDENT,一个自动化管道,利用基于人设的零样本LLM生成来生成跨越这些维度的多样化和全面的指令。每条有害指令都配以符合伦理的响应,产生两个数据集:包含26,311个样本的TRIDENT-Core和包含18,773个样本的TRIDENT-Edge。在TRIDENT-Edge上微调Meta-Llama-3.1-8B,相比在WildBreak数据集上微调的最佳基线模型,实现了平均14.29%的危害分数降低和20%的攻击成功率下降。我们的数据集可在https://github.com/FishT0ucher/TRIDENT获取。111免责声明:本文包含可能不当、粗俗或冒犯性的内容。

TRIDENT: 利用三维多样化红队数据合成增强大语言模型安全性

Xiaorui Wu1, Xiaofeng Mao2, Fei Li1\*, Xin Zhang3,Xuanhong Li1,Chong Teng1,Donghong Ji1\*,Zhuang Li4†1教育部航天信息安全与可信计算重点实验室,武汉大学网络空间安全学院,中国武汉 2蚂蚁集团 3蚂蚁国际 4皇家墨尔本理工大学计算技术学院,澳大利亚 1\{wuxiaorui, lifei\_csnlp, lixuanhong, tengchong, dhji\}@whu\.edu\.cn 2mxf164419@antgroup\.com,3evan\.zx@ant\-intl\.com,4zhuang\.li@rmit\.edu\.au

\*\*脚注:通讯作者。††脚注:高级作者;研究负责人。

## 1 引言

参考图1:使用Llama-Guard-3-8B对6个基线红队数据集和TRIDENT-Core中的指令进行分类,显示分布严重倾斜,大多数指令集中在暴力犯罪、非暴力犯罪和性相关内容等领域。

大语言模型(LLM)在自然语言处理(NLP)领域取得了显著进展,对经济、社会和文化领域的发展做出了贡献。然而,它们的广泛部署带来了重大风险。在大规模无监督语料上训练的LLM可能生成反映偏见、歧视或与社会规范不一致价值观的输出。此外,它们可能被用于恶意目的,例如制作网络钓鱼信息Shibliet al.(2024)或实施网络攻击Mahmoodi and Jameii(2024),这突出了解决这些安全问题的紧迫性。

红队测试是一种广泛使用的策略,用于发现LLM中的漏洞,通过生成各种恶意指令,可以自动使用LLM生成,也可以由专家手动生成。这些恶意指令与精心设计的符合规范的响应配对,形成专门的数据集,支持安全对齐工作,特别是监督微调(SFT)等方法。在对齐数据集上微调LLM有助于降低有害输出的可能性,确保更安全、更可靠的模型行为Ganguliet al.(2022)。

这个过程的关键挑战是实现对潜在安全风险的全面覆盖,这需要多样化的红队指令。当前的数据整理方法往往关注词汇多样性,丰富词汇Chanet al.(2024),但忽视了其他关键维度。如图1所示,即使词汇多样的数据集在恶意用户意图领域也存在不平衡,某些类型占主导地位而其他类型代表不足。这种不平衡限制了LLM获得全面安全知识的能力。同时,我们发现大多数现有数据集没有考虑越狱策略,导致用这些数据集微调的LLM在处理越狱攻击时表现不佳。

参考图2:我们用于构建TRIDENT的数据生成管道示意图

为解决这一限制,我们确定了风险相关多样性的三个关键维度:词汇多样性通过丰富指令的词汇和语言复杂性来增强模型稳健性。恶意意图多样性确保在用户指令中均衡覆盖多种有害意图类别(例如暴力、诽谤),拓宽模型对多样有害场景的接触。越狱策略多样性整合各种对抗技术,增强模型对操纵性越狱攻击的抗性。衡量这些维度提供了一个框架来量化风险覆盖,指导更有效的数据集整理以增强LLM安全性。

基于这些维度,我们推出了TRIDENT,一个创新的自动化数据生成管道,将人工干预降至最低。TRIDENT采用零样本方法,使用聊天LLM生成多样化的人设和属性,然后指导指令生成。通过基于人设的角色扮演,LLM确保词汇和恶意意图多样性Shahet al.(2023),而整合的越狱策略进一步扩展了风险覆盖。然后,每条有害指令与由安全聚焦的LLM(如GPT-4o-mini)生成的良性、符合伦理的响应配对。

这个过程产生了两个全面的数据集:TRIDENT-Core包含26,311个样本,重点关注词汇和恶意意图多样性,以及TRIDENT-Edge(表中的样本),将越狱策略多样性整合到TRIDENT-Core中的样本中,产生18,773个样本。我们的评估显示,在TRIDENT-Edge上微调Meta-Llama-3.1-8B明显优于当前最先进的基线(AttaQKouret al.(2023)、AARTRadharapuet al.(2023)、HH\_RLHFGanguliet al.(2022)、Safe\_RLHFJiet al.(2024a)、WildBreakJianget al.(2024b)和WildChatZhaet al.(2024)微调的Meta-Llama-3.1-8B)在七个基准上,将危害分数(HS)降低13.89%,攻击成功率(ASR)降低20%。此外,我们的消融研究表明,多样性的每个维度都对改进LLM安全性有实质性贡献。

总体而言,我们的贡献如下:

i) 我们引入了一个系统框架来分析红队数据集在三个基本多样性维度上的风险覆盖:词汇、恶意意图和越狱策略。

ii) 我们呈现TRIDENT,一个自动化和可扩展的管道,可高效生成多样化的指令-响应对,产生TRIDENT-Core和TRIDENT-Edge数据集。

iii) 通过广泛的实验,我们演示了我们的多样性增强数据集在多个基准上实质性改进LLM安全性和实用性,消融研究突出了每个多样性维度的不同贡献。

## 2 TRIDENT数据生成管道

为克服现有红队数据集的限制,我们推出TRIDENT,一个自动化数据整理管道,旨在系统地增强三个关键多样性维度:词汇多样性、恶意意图多样性和越狱策略多样性。这些维度通过拓宽语言变异、扩大恶意意图覆盖和强化模型对对抗策略的防御来解决当前数据集中的关键空白。图2说明了管道,从定义高级意图域进展到生成多样化的恶意指令和符合规范的响应。

#### 定义意图域。

TRIDENT的起点是定义意图域,包括14个恶意用户意图类别,包括暴力犯罪、诽谤和性相关犯罪等。这些域采自Llama-Guard-3-8BInanet al.(2023)和MLCommons222https://mlcommons.org/2024/04/mlc-aisafety-v0-5-poc/定义的危害类别,之所以选择是因为它们有良好的既定标准和对潜在威胁的广泛覆盖。该框架有效处理常见风险(如诽谤和暴力犯罪)和专门威胁(如代码解释器滥用)。通过利用Llama-Guard-3-8B的系统分类,TRIDENT确保了分类恶意意图的准确性、可扩展性和全面覆盖,为管道后续步骤奠定了坚实基础。

#### 场景生成。

如图2所示,我们使用未检查的Llama-3.1-8b-instruct模型在零样本设置中生成特定域的场景333https://huggingface.co/aifeifei798/DarkIdol-Llama-3.1-8B-Instruct-1.2-Uncensored。例如,在"代码解释器滥用"域中,它可能创建涉及滥用编程工具来嵌入隐藏恶意代码的场景。通过将抽象的意图域基础化为现实场景,该方法有效支持后续的人设创建和指令生成。

#### 人设生成。

我们使用单个LLM的两步方法从场景生成多样化的人设及其属性。人设捕获场景语境中个体的角色、行为和目标,而属性定义更具体的人设细节,如职业、性格特征和经验。

第1步:场景到人设生成。场景生成中的同一LLM从每个场景推断在语境上合适的人设及其定义属性。这确保人设表现出以可信情况为基础的现实动机和行为。例如,给定"代码解释器滥用"域中的场景,模型可能生成"利用技术专长操纵他人的魅力黑客"的人设,属性包括"职业:网络犯罪分子"、"性格:操纵性和野心"和"生活经历:受不道德技术领导者影响"。

第2步:人设到人设扩展。我们通过提示LLM通过探索人际联系和共享属性来生成相关人设,进一步多样化我们的人设集。例如,模型可能将黑客人设扩展为"聪明但孤立的开发者,为网络钓鱼活动创建技术工具"。在六度分离理论Travers and Milgram(1977)的指导下,这种方法允许我们通过生成足够数量的相关人设,从Llama-Guard定义的意图域扩展到未定义的域。

#### 指令生成。

我们的管道通过两个关键步骤生成有害指令:i) 将准备好的人设和属性转换为指令以增强词汇和恶意意图多样性,以及ii) 改进越狱策略多样性。这些步骤共同确保对指令中风险的全面覆盖。

第1步:增强词汇和恶意意图多样性。我们采用角色扮演方法,其中LLM充当先前生成的人设来创建多样化的指令。每个人设的独特特征自然影响生成内容的语言和风格,有助于词汇多样性。例如,当采用"狡猾政治家"的角色时,LLM生成正式措辞的内容,而作为"网络犯罪分子"时,它生成技术上复杂的恶意指令。此外,人设到人设扩展实现了从Llama-Guard定义的意图域到未定义域的扩展,增强了恶意意图的多样性。

第2步:整合越狱策略。为改进数据集的对抗稳健性,我们应用六种高级越狱方法,每种方法包括多种越狱策略,将基础指令转换为六种不同形式。其中一条转换指令(随机选择)替换原始指令,如果它成功绕过Meta-Llama-3.1-8B的防御。这些方法是:密码编码Yuanet al.(2024b)在类似代码的格式中加密指令,需要解密来揭示有害意图。代码注入Kanget al.(2023)将有害指令嵌入看似良性的代码片段中。低资源翻译Denget al.(2024)将指令转换为较少见的语言,同时保持其恶意意图。过去式改写Andriushchenko and Flammarion(2024)修改指令的时间背景。人设调制Shahet al.(2023)调整指令以匹配特定人设风格。RENELLM技术Dinget al.(2024)应用多种转换,包括释义、结构改变和策略性拼写错误。

TRIDENT-Core和TRIDENT-Edge。TRIDENT-Core由强调词汇多样性和恶意意图多样性生成的指令组成,旨在鼓励其他研究人员通过更高级的越狱方法扩展TRIDENT-Core。TRIDENT-Edge通过整合越狱策略扩展这一基础,添加第三个多样性维度并加强数据集对对抗越狱攻击的防御。

#### 指令过滤。

TRIDENT采用两阶段过滤过程以确保数据集质量和多样性。首先,Llama-Guard-3-8B识别并保留仅被分类为"不安全"的指令,过滤掉良性指令。其次,该过程遍历指令集,计算每条新指令与现有条目之间的成对BLEU相似度分数Papineniet al.(2002),以确保

相似文章

大语言模型红队测试框架:以忠实性评估为例

arXiv cs.CL

本文提出了一种针对大语言模型的红队测试框架,采用多角色架构系统性地揭示模型漏洞,尤其在忠实性方面。该框架在问答任务中实现了攻击成功率提升7.9%,并强调了架构选择对模型安全性的影响超过参数规模。

DART:通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移 来源:[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要 经过安全调优的大语言模型(LLM)通常会回避承认人口统计差异,即使这种承认在事实上是正确的(例如,基于血统的