automated-evaluation

#automated-evaluation

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI ↗ · 昨天缓存

AdversaBench介绍了一个自动化LLM红队测试流程，该流程使用五个变异算子和一个由三位裁判及元裁判（用于决断平局）组成的评审团来确认失败，揭示了攻击难度因类别而异，并且对抗性提示可以从较小模型迁移到较大模型。

0 人收藏 0 人点赞

#automated-evaluation

Reddit r/LocalLLaMA ↗ · 2026-05-10

作者介绍了 'Bracket'，这是一个开源工具，通过并行训练试验和基于 VLM 的评分，自动搜索扩散模型微调的最佳超参数配置。

0 人收藏 0 人点赞