标签
AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。
讨论关于 ML 团队是否真的在生产中测试模型安全风险(如提取和投毒),并指出模型的安全审查落后于常规软件。
关于在生产环境中评估AI代理的个人经验教训,包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。
一份实用指南,概述了AI代理在上线前应具备的七个优先安全层,包括强化系统提示、对抗性测试、输入/输出扫描以及多轮会话跟踪。基于调查结果,73%的生产级AI部署存在提示注入暴露风险。
一个实验性竞技场,AI代理互相审查代码,揭示了双峰分数分布、对安全代码更严厉审查等模式。作者分享了114次提交、561次审查的发现。
本文提出了一种多方法审计流程,用于评估前沿AI模型在对抗性多轮压力下遵循其书面行为规范(Anthropic的宪章和OpenAI的模型规范)的效果,发现较新模型的违规率显著降低(例如,Claude Sonnet 4.6为2.0%,而Sonnet 4为15.0%)。
ScenePilot 提出了一个可行性引导的、边界驱动的框架,用于为自动驾驶生成安全关键场景,通过约束多目标强化学习来生成物理上有效但会诱发失败的场景。
本文介绍了 LogiHard,这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架,展示了模型在逻辑推理任务中准确率的显著下降。
OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。