jailbreak-evaluation

标签

Cards List
#jailbreak-evaluation

压力下的风险:语言模型对抗鲁棒性的计算感知评估

arXiv cs.LG · 5天前 缓存

本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架,提出了基于FLOPs的风险-计算曲线和度量指标,以更好地评估攻击成本,发现对齐训练具有非单调效应,且计算成本因模型和危害类别而异。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈