标签
TRIDENT是一个新颖的框架和数据集合成管道,用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比,危害分数降低14.29%,攻击成功率下降20%。