jailbreak-evaluation

#jailbreak-evaluation

压力下的风险：语言模型对抗鲁棒性的计算感知评估

arXiv cs.LG ↗ · 5天前缓存

本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架，提出了基于FLOPs的风险-计算曲线和度量指标，以更好地评估攻击成本，发现对齐训练具有非单调效应，且计算成本因模型和危害类别而异。

0 人收藏 0 人点赞