attack-success-rate

标签

Cards List
#attack-success-rate

你的越狱评判器有多可靠?自动化ASR评分的校准与对抗鲁棒性

arXiv cs.CL · 昨天 缓存

本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈