标签
AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。
作者介绍了 'Bracket',这是一个开源工具,通过并行训练试验和基于 VLM 的评分,自动搜索扩散模型微调的最佳超参数配置。