alignment-datasets

标签

Cards List
#alignment-datasets

TRIDENT:通过三维多样化红队数据合成增强大型语言模型安全性

arXiv cs.CL · 2026-04-20 缓存

TRIDENT是一个新颖的框架和数据集合成管道,用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比,危害分数降低14.29%,攻击成功率下降20%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈