标签
本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。
本文研究了最终Token安全探针在越狱提示上的失败,发现有害内容可以分布在较早的Token中,并被最终读取忽略。它提出了一种PCA-HMM轨迹模型作为诊断工具,该模型能够恢复许多遗漏,而不会产生简单Token池化的误报。
TRIDENT是一个新颖的框架和数据集合成管道,用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比,危害分数降低14.29%,攻击成功率下降20%。