attack-success-rate

#attack-success-rate

你的越狱评判器有多可靠？自动化ASR评分的校准与对抗鲁棒性

arXiv cs.CL ↗ · 昨天缓存

本文评估了用于测量大语言模型（LLM）越狱研究中攻击成功率（ASR）的自动化评判器的可靠性，发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题，从而削弱了所报告的ASR数值的可信度。

0 人收藏 0 人点赞